DeepSeek Math-V2
不仅会做题,还会检查作业。 探索模型如何通过"自我验证"实现奥数金牌水平的推理。
为什么只看答案不够?
传统的强化学习 (Outcome Reward) 就像一个只看答案的老师。这导致模型学会了"凑答案"。DeepSeekMath 通过训练过程验证器 (Process Verifier) 来独立评估每个推理步骤,从而解决了这个问题。
结果奖励 (Traditional)
False Positive: Wrong reasoning accepted!
过程验证 (Math-V2)
交互演示:模型是如何"自省"的?
点击下方按钮,观察 DeepSeekMath 如何在没有标准答案的情况下,通过自我验证机制发现并纠正逻辑漏洞。这种自我纠正能力正是 DeepSeekMath 区别于传统数学推理模型的关键。
Ready to solve...
初稿: 令 f(x) = x + 1/x。 对 f(x) 求导得 f'(x) = 1 + 1/x^2。 令 f'(x) = 0,解得 x^2 = -1。 因为实数域无解,所以...
审查报告: [错误检测] 第2步求导错误。f'(x) 应该是 1 - 1/x^2。 [逻辑漏洞] x^2=-1 无解推导不出极值点信息。 评分:0/1 (建议重做)
修正后: 使用基本不等式 (AM-GM)。 对于正实数 x, 1/x > 0。 根据均值不等式:x + 1/x ≥ 2√(x * 1/x) = 2. 当且仅当 x = 1/x 即 x=1 时等号成立。
审查报告: [步骤检查] AM-GM 使用条件满足 (x>0)。 [逻辑检查] 推导严谨,等号条件已给出。 评分:1/1 (完美)
训练流水线:Meta-Verification
为了训练 DeepSeekMath 中公正的"检查员"(Verifier),DeepSeek 引入了"元检查"(Meta-Verification) 机制,防止检查员产生幻觉错误报告。这种三层管线是 DeepSeekMath 方法所独有的。
Why Meta-Verification?
DeepSeekMath 的 Verifier 可能会在没有错误的地方挑刺(假阳性)。Meta-Verifier 负责复核 Verifier 的评判,确保只有真正的错误才会被惩罚,维护 DeepSeekMath 训练信号的完整性。
超越人类顶尖水平
DeepSeekMath 在全球最难的数学竞赛中取得了令人瞩目的成绩,证明了 DeepSeekMath 的自我验证方法确实能产生真正优越的数学推理能力。
GRPO + Self-Verification
DeepSeekMath-V2 的核心突破在于结合了 R1 的 GRPO 算法和专门设计的“自我验证”机制。 通过让模型在生成过程中不断进行“自我审查”,它极大地提高了在复杂数学证明任务上的准确率, 同时也为合成高质量的数学训练数据提供了一条自动化路径。
常见问题 (FAQ)
知识小测验
看看你掌握了多少核心知识点?
