DeepSeek V3
更强、更快、更省钱。 探索 DeepSeek-V3 这个 671B 参数 MoE 模型背后的架构魔法。
MoE 架构
DeepSeek-V3 拥有 6710 亿总参数,每次激活 370 亿。DeepSeek-V3 通过无辅助 Loss 负载均衡策略,在不影响模型质量的前提下让专家分工更合理。
多 Token 预测 (MTP)
DeepSeek-V3 不仅预测下一个词,还预测下下个词。这让 DeepSeek-V3 模型学会"提前规划",提供更密集的监督信号,训练效率倍增。
极致成本
DeepSeek-V3 全程使用 FP8 混合精度训练。仅消耗 278 万 GPU 小时 ($5.6M) 即完成训练,DeepSeek-V3 为前沿模型训练的性价比树立了新标杆。
无辅助 Loss 负载均衡 (Auxiliary-Loss-Free)
MoE 模型的最大痛点是"专家拥堵":所有的任务都想挤给最强的那个专家 (Collapse)。传统方法强行惩罚拥堵(Aux Loss),但这会降低模型性能。DeepSeek-V3 采取了不同的策略:给每个专家动态加"偏置分" (Bias)。如果专家太忙,DeepSeek-V3 就扣分;太闲,DeepSeek-V3 就加分。
未平衡状态:Token 根据原始偏好全部涌向专家 A(拥堵)。专家 A 过载,B 和 C 闲置。
公式解密
Score = Affinity + Bias
V3 创新点在于:
1. Bias 仅用于路由 (Routing)
2. Affinity 用于计算 (Computing)
为什么这很重要?
以往为了平衡负载,会强行加一个 Auxiliary Loss 惩罚项到总 Loss 里。这虽然平衡了专家,但也"干扰"了模型的正常学习。DeepSeek-V3 的方法同时做到了"平衡 + 高性能",这也是 DeepSeek-V3 优于其他 MoE 模型的关键原因。
多 Token 预测 (MTP)
普通模型像在走迷宫,只能看清脚下的那一步。DeepSeek-V3 像在下棋,能同时预测"下一步"和"下下步"。这种多 Token 预测能力是 DeepSeek-V3 如此高效的核心所在。
输入 Token
训练收益
DeepSeek-V3 的 MTP 让模型在每一步都能获得更密集的监督信号。模型不仅要学会"接下来是什么",还要学会"提前规划",每个训练样本产生更丰富的梯度信息。
推理加速
在 DeepSeek-V3 推理阶段,我们可以保留 MTP 模块进行"推测解码"。DeepSeek-V3 一次性猜两个词,如果猜对了,生成速度直接翻倍!
FP8 混合精度训练
DeepSeek-V3 如何让 6710 亿参数的模型跑得飞快?答案是:不要用那么"精细"的数字。DeepSeek-V3 在这个规模上率先实现了全程 FP8 训练。
BF16 (16-bit)
传统的训练精度。占用显存大,计算速度较慢。
FP8 (8-bit)
精度减半,速度翻倍。DeepSeek-V3 攻克了此前阻碍大规模 FP8 训练的不稳定问题。
训练成本奇迹
仅使用 2048 张 H800 显卡,历时不到 2 个月。
常见问题 (FAQ)
知识小测验
看看你掌握了多少核心知识点?
