最先进的开源模型 (SOTA)

DeepSeek V3

更强、更快、更省钱。 探索 DeepSeek-V3 这个 671B 参数 MoE 模型背后的架构魔法。

MoE 架构

DeepSeek-V3 拥有 6710 亿总参数,每次激活 370 亿。DeepSeek-V3 通过无辅助 Loss 负载均衡策略,在不影响模型质量的前提下让专家分工更合理。

多 Token 预测 (MTP)

DeepSeek-V3 不仅预测下一个词,还预测下下个词。这让 DeepSeek-V3 模型学会"提前规划",提供更密集的监督信号,训练效率倍增。

极致成本

DeepSeek-V3 全程使用 FP8 混合精度训练。仅消耗 278 万 GPU 小时 ($5.6M) 即完成训练,DeepSeek-V3 为前沿模型训练的性价比树立了新标杆。

无辅助 Loss 负载均衡 (Auxiliary-Loss-Free)

MoE 模型的最大痛点是"专家拥堵":所有的任务都想挤给最强的那个专家 (Collapse)。传统方法强行惩罚拥堵(Aux Loss),但这会降低模型性能。DeepSeek-V3 采取了不同的策略:给每个专家动态加"偏置分" (Bias)。如果专家太忙,DeepSeek-V3 就扣分;太闲,DeepSeek-V3 就加分。

Token 路由模拟器
90%
Expert A
Bias: 0.00
16%
Expert B
Bias: 0.00
26%
Expert C
Bias: 0.00

未平衡状态:Token 根据原始偏好全部涌向专家 A(拥堵)。专家 A 过载,B 和 C 闲置。

公式解密

Score = Affinity + Bias

V3 创新点在于:
1. Bias 仅用于路由 (Routing)
2. Affinity 用于计算 (Computing)

为什么这很重要?

以往为了平衡负载,会强行加一个 Auxiliary Loss 惩罚项到总 Loss 里。这虽然平衡了专家,但也"干扰"了模型的正常学习。DeepSeek-V3 的方法同时做到了"平衡 + 高性能",这也是 DeepSeek-V3 优于其他 MoE 模型的关键原因。

多 Token 预测 (MTP)

普通模型像在走迷宫,只能看清脚下的那一步。DeepSeek-V3 像在下棋,能同时预测"下一步"和"下下步"。这种多 Token 预测能力是 DeepSeek-V3 如此高效的核心所在。

输入 Token

The
DeepSeek-V3 Transformer
Next TokenMain Head
capital
Next+1 Token (MTP)MTP Module
of
* Training Only / Speculative Decoding

训练收益

DeepSeek-V3 的 MTP 让模型在每一步都能获得更密集的监督信号。模型不仅要学会"接下来是什么",还要学会"提前规划",每个训练样本产生更丰富的梯度信息。

推理加速

在 DeepSeek-V3 推理阶段,我们可以保留 MTP 模块进行"推测解码"。DeepSeek-V3 一次性猜两个词,如果猜对了,生成速度直接翻倍!

FP8 混合精度训练

DeepSeek-V3 如何让 6710 亿参数的模型跑得飞快?答案是:不要用那么"精细"的数字。DeepSeek-V3 在这个规模上率先实现了全程 FP8 训练。

BF16 (16-bit)

传统的训练精度。占用显存大,计算速度较慢。

Storage: 16 bits per param
DeepSeek-V3 Standard

FP8 (8-bit)

Save
Save
Save
Save
Save
Save
Save
Save

精度减半,速度翻倍。DeepSeek-V3 攻克了此前阻碍大规模 FP8 训练的不稳定问题。

Storage: 8 bits per param (50% Saving)

训练成本奇迹

仅使用 2048 张 H800 显卡,历时不到 2 个月。

5.6M
Total Cost
2.8M
GPU Hours
10x
Cheaper than Peers

常见问题 (FAQ)

很难直接运行完整的 DeepSeek-V3。671B 参数即使是 4-bit 量化也需要巨大的显存。不过,由于 DeepSeek-V3 采用 MoE 架构,每次推理只激活 37B 参数,所以推理速度其实很快。对于个人用户,推荐使用 DeepSeek-V3 蒸馏的小参数版本。
这是一个巨大的技术挑战。DeepSeek-V3 通过精心设计的高精度量化策略和混合精度管理解决了这个问题。实验表明,DeepSeek-V3 在全程 FP8 训练下的性能与传统的 BF16 训练几乎一致,但显存占用减半,计算速度翻倍。
虽然 MTP 主要用于训练(提供更密集的监督信号),但在推理时,保留 DeepSeek-V3 的 MTP 模块可以支持"推测解码" (Speculative Decoding)。DeepSeek-V3 可以一次性猜出后面两个词,如果验证正确,生成速度直接翻倍。
DeepSeek-V3 在同等规模的开源模型中表现显著优异。在 MMLU、HumanEval 和 MATH 等基准测试中,DeepSeek-V3 达到或超过了训练成本高出 10 倍的模型。无辅助 Loss 负载均衡、MTP 和 FP8 训练的结合使 DeepSeek-V3 在前沿模型中独具效率优势。
DeepSeek-V3 通过三项协同创新实现了卓越的成本效率:FP8 混合精度训练将显存减半、计算速度翻倍;无辅助 Loss 负载均衡确保所有专家都能有效贡献,不浪费梯度信号;DualPipe 基础设施将计算与通信重叠。这些技术的结合使 DeepSeek-V3 仅用 278 万 GPU 小时完成训练——只是同类模型的一小部分。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

DeepSeek-V3 采用了什么策略来平衡 MoE 专家负载?

想亲自体验 DeepSeek V3?

在我们的交互式聊天界面中探索 DeepSeek 的能力。

开始聊天