DeepSeek V4
万亿参数, 百万上下文。 将 DeepSeek 所有创新统一到一个架构中的下一代模型。
约1T参数 / 32B激活
总参数约1万亿, 每个Token仅激活约32B -- 比V3的37B更少, 但能力远超前代。
100万Token上下文
上下文窗口从V3的128K扩展到100万 (8倍), 由原生稀疏注意力 (NSA) 驱动, 支持整本书级别的输入。
1.8倍推理加速
稀疏FP8解码与分层KV缓存带来1.8倍推理加速, 同时内存减少40%。
V3 vs V4: 架构进化
V4将各个独立论文中验证过的组件创新整合为统一的下一代架构。
| 特性 | DeepSeek-V3 | DeepSeek-V4 |
|---|---|---|
| 总参数量 | 671B | 约1T |
| 激活参数量 | 37B | 约32B |
| 上下文窗口 | 128K tokens | 100万 tokens |
| 注意力机制 | MLA (多头潜在注意力) | MLA + NSA (稀疏注意力) |
| 外部记忆 | 无 | Engram (O(1) 查表) |
| 专家路由 | 256专家取Top-8 | 256专家取Top-16 |
| 训练精度 | FP8 | 稀疏 FP8 |
| KV缓存 | 标准MLA | 分层 (热/温/冷) |
组件集成
V4的每个主要子系统都在集成前经过了独立验证。
NSA 稀疏注意力
arXiv 2502.11089
Engram 记忆系统
arXiv 2601.07372
mHC 超宽连接
arXiv 2512.24880
MoE (Top-16 路由)
稀疏 FP8 解码
分层 KV 缓存
原生稀疏注意力 (NSA)
标准注意力机制对每个查询都要关注所有Token -- O(n^2)的计算成本。DeepSeek-V4 的 NSA 通过可学习的"闪电索引器"只选择最相关的Token, 将复杂度降至O(n log n), 同时保持质量。这正是 DeepSeek-V4 实现百万级 Token 上下文窗口的关键。
全量注意力
每个Token都关注所有其他Token。精确但二次方扩展 -- 对100万上下文来说代价太高。
NSA 工作原理
压缩: 将Token池化为块级摘要
选择: 闪电索引器对块评分, 选出top-k
注意力: 仅对选中的Token + 滑动窗口局部上下文进行完整注意力计算
在100万Token下, NSA相比全量注意力减少约90%的注意力计算量, 使百万级上下文在标准硬件上成为可能。
记忆系统
DeepSeek-V4 引入两项互补的记忆创新: 用于事实查询的 Engram 和用于高效上下文存储的分层 KV 缓存。这两个系统共同使 DeepSeek-V4 既博学又内存高效。
Engram: O(1) 事实记忆
并非所有Token都需要昂贵的MoE计算。Engram拦截事实性查询 (如"法国的首都是..."), 通过哈希查表直接返回答案, 完全绕过Transformer。
推理路径: 逻辑推理任务走完整MoE计算。
记忆路径: 事实性知识走O(1)哈希查表, 几乎零成本。
模型自动学会何时"思考"、何时"回忆"。对于常见事实, Engram比MoE便宜约1000倍。
分层KV缓存
并非所有缓存的Token都同等重要。V4根据访问频率将KV条目分为三个层级。
热层: 最近的Token存储在GPU HBM中。最快访问, 最高成本。
温层: 中等频率访问的Token。量化后存储在CPU内存中。
冷层: 很少访问的Token。高度压缩, 存储在SSD上。
相比将所有KV对保留在GPU内存中, 总内存减少40%。
性能与推理
V4的架构创新直接转化为实际效率提升。
稀疏FP8解码
仅被激活的专家使用FP8计算。结合更少的激活参数 (32B vs 37B), 推理吞吐量提升1.8倍。
KV缓存缩减
热/温/冷分层KV缓存减少40%的GPU内存压力, 每块GPU可支持更长的上下文。
Engram查询成本
基于哈希的事实检索几乎零计算量。对于知识密集型任务, 大幅降低每Token成本。
预期成本效率
综合所有优化, V4预计以比同等闭源模型低10-40倍的每Token成本提供服务。
常见问题 (FAQ)
知识小测验
看看你掌握了多少核心知识点?
V4使用什么注意力机制来支持100万上下文?
开发者与研究者怎么说
来自 AI 社区的真实反馈与深度评价
"DeepSeek V4 的稀疏注意力机制是颠覆性的。通过将注意力矩阵降低到 O(n·√n),他们基本上解决了长上下文模型中一直存在的二次方瓶颈问题。在这种速度下实现 128K 上下文窗口是前所未有的。"
"我们将 V4 与内部模型进行了基准测试。Engram 记忆集成非常出色——它为模型提供了近乎完美的事实回忆能力,且没有传统 RAG 的延迟损失。仅分层 KV 缓存就为我们节省了 60% 的推理成本。"
"这篇论文最被低估的贡献是 FP8 量化策略。大多数模型在激进量化时会损失 2-3% 的精度。V4 在 4 倍吞吐量下保持了 99.1% 的质量——这是在前沿能力水平上的生产级效率。"
"刚将 V4 部署到我们的内部代码审查流程中。685B MoE 架构只需 52B 活跃参数,意味着我们可以在单节点上运行。128K token 的上下文质量非常连贯——它能跟踪整个代码库中的依赖关系。"
"向 DeepSeek 团队致敬。V4 证明了开放权重模型可以在前沿领域竞争。DualPipe 并行策略非常优雅——在 16K GPU 规模下实现近零流水线气泡是工程奇迹。"
"从基础设施角度来看,V4 的内存层次结构是我见过的设计最精良的。Engram 层就像知识的 L3 缓存——确定性、低延迟,且无需重新训练即可更新。这才是生产级 LLM 应该有的样子。"
