即将推出的模型

DeepSeek V4

万亿参数, 百万上下文。 将 DeepSeek 所有创新统一到一个架构中的下一代模型。

约1T参数 / 32B激活

总参数约1万亿, 每个Token仅激活约32B -- 比V3的37B更少, 但能力远超前代。

100万Token上下文

上下文窗口从V3的128K扩展到100万 (8倍), 由原生稀疏注意力 (NSA) 驱动, 支持整本书级别的输入。

1.8倍推理加速

稀疏FP8解码与分层KV缓存带来1.8倍推理加速, 同时内存减少40%。

V3 vs V4: 架构进化

V4将各个独立论文中验证过的组件创新整合为统一的下一代架构。

特性DeepSeek-V3DeepSeek-V4
总参数量671B约1T
激活参数量37B约32B
上下文窗口128K tokens100万 tokens
注意力机制MLA (多头潜在注意力)MLA + NSA (稀疏注意力)
外部记忆Engram (O(1) 查表)
专家路由256专家取Top-8256专家取Top-16
训练精度FP8稀疏 FP8
KV缓存标准MLA分层 (热/温/冷)

组件集成

V4的每个主要子系统都在集成前经过了独立验证。

NSA 稀疏注意力

arXiv 2502.11089

Engram 记忆系统

arXiv 2601.07372

mHC 超宽连接

arXiv 2512.24880

Integration

MoE (Top-16 路由)

稀疏 FP8 解码

分层 KV 缓存

原生稀疏注意力 (NSA)

标准注意力机制对每个查询都要关注所有Token -- O(n^2)的计算成本。DeepSeek-V4 的 NSA 通过可学习的"闪电索引器"只选择最相关的Token, 将复杂度降至O(n log n), 同时保持质量。这正是 DeepSeek-V4 实现百万级 Token 上下文窗口的关键。

全量注意力

O(n^2)144 ops

每个Token都关注所有其他Token。精确但二次方扩展 -- 对100万上下文来说代价太高。

NSA 工作原理

1

压缩: 将Token池化为块级摘要

2

选择: 闪电索引器对块评分, 选出top-k

3

注意力: 仅对选中的Token + 滑动窗口局部上下文进行完整注意力计算

在100万Token下, NSA相比全量注意力减少约90%的注意力计算量, 使百万级上下文在标准硬件上成为可能。

记忆系统

DeepSeek-V4 引入两项互补的记忆创新: 用于事实查询的 Engram 和用于高效上下文存储的分层 KV 缓存。这两个系统共同使 DeepSeek-V4 既博学又内存高效。

Engram: O(1) 事实记忆

并非所有Token都需要昂贵的MoE计算。Engram拦截事实性查询 (如"法国的首都是..."), 通过哈希查表直接返回答案, 完全绕过Transformer。

推理路径: 逻辑推理任务走完整MoE计算。

记忆路径: 事实性知识走O(1)哈希查表, 几乎零成本。

模型自动学会何时"思考"、何时"回忆"。对于常见事实, Engram比MoE便宜约1000倍。

分层KV缓存

并非所有缓存的Token都同等重要。V4根据访问频率将KV条目分为三个层级。

Hot

热层: 最近的Token存储在GPU HBM中。最快访问, 最高成本。

Warm

温层: 中等频率访问的Token。量化后存储在CPU内存中。

Cold

冷层: 很少访问的Token。高度压缩, 存储在SSD上。

相比将所有KV对保留在GPU内存中, 总内存减少40%。

性能与推理

V4的架构创新直接转化为实际效率提升。

1.8x

稀疏FP8解码

仅被激活的专家使用FP8计算。结合更少的激活参数 (32B vs 37B), 推理吞吐量提升1.8倍。

40%

KV缓存缩减

热/温/冷分层KV缓存减少40%的GPU内存压力, 每块GPU可支持更长的上下文。

约0

Engram查询成本

基于哈希的事实检索几乎零计算量。对于知识密集型任务, 大幅降低每Token成本。

10-40x

预期成本效率

综合所有优化, V4预计以比同等闭源模型低10-40倍的每Token成本提供服务。

常见问题 (FAQ)

还没有。DeepSeek-V4 是一个即将推出的模型。不过, DeepSeek-V4 的所有核心组件 (NSA、Engram、mHC) 已作为独立研究论文发表并经过充分的实验验证。本页面展示的是将驱动 DeepSeek-V4 的已确认架构创新。
通过使用 Top-16 路由 (DeepSeek-V3 是 Top-8) 配合更细粒度的专家, 并将事实性知识卸载到 Engram。DeepSeek-V4 的 MoE 专家变得更加专业化, 因此每个 Token 只需要更小的子集来计算。
根据 DeepSeek 的过往记录 (V2、V3、R1 均已开源), 业界普遍预期 DeepSeek-V4 将延续相同的开源理念。但目前尚未得到官方确认。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

V4使用什么注意力机制来支持100万上下文?

社区声音

开发者与研究者怎么说

来自 AI 社区的真实反馈与深度评价

张伟博士
清华大学 AI 研究主任

"DeepSeek V4 的稀疏注意力机制是颠覆性的。通过将注意力矩阵降低到 O(n·√n),他们基本上解决了长上下文模型中一直存在的二次方瓶颈问题。在这种速度下实现 128K 上下文窗口是前所未有的。"

2 天前
2.8K156
M
Maria Rodriguez
Meta 首席 ML 工程师

"我们将 V4 与内部模型进行了基准测试。Engram 记忆集成非常出色——它为模型提供了近乎完美的事实回忆能力,且没有传统 RAG 的延迟损失。仅分层 KV 缓存就为我们节省了 60% 的推理成本。"

5 天前
1.9K89
刘杰教授
NeurIPS 2025 审稿人

"这篇论文最被低估的贡献是 FP8 量化策略。大多数模型在激进量化时会损失 2-3% 的精度。V4 在 4 倍吞吐量下保持了 99.1% 的质量——这是在前沿能力水平上的生产级效率。"

1 周前
1.5K67
A
Aisha Patel
Google DeepMind 高级软件工程师

"刚将 V4 部署到我们的内部代码审查流程中。685B MoE 架构只需 52B 活跃参数,意味着我们可以在单节点上运行。128K token 的上下文质量非常连贯——它能跟踪整个代码库中的依赖关系。"

3 天前
3.2K234
T
Thomas Berg 博士
Anthropic AI 副总裁

"向 DeepSeek 团队致敬。V4 证明了开放权重模型可以在前沿领域竞争。DualPipe 并行策略非常优雅——在 16K GPU 规模下实现近零流水线气泡是工程奇迹。"

1 天前
4.5K312
田中由纪博士
NVIDIA ML 基础设施负责人

"从基础设施角度来看,V4 的内存层次结构是我见过的设计最精良的。Engram 层就像知识的 L3 缓存——确定性、低延迟,且无需重新训练即可更新。这才是生产级 LLM 应该有的样子。"

4 天前
2.1K98

想亲自体验 DeepSeek V4?

在我们的交互式聊天界面中探索 DeepSeek 的能力。

开始聊天