自我验证的数学推理

DeepSeek Math-V2

不仅会做题,还会检查作业。 探索模型如何通过"自我验证"实现奥数金牌水平的推理。

自我验证 (Self-Verification)

DeepSeekMath 不再盲目自信。它学会了像严谨的老师批改证明一样,逐行检查自己的推理步骤,发现逻辑错误。

生成-验证循环

DeepSeekMath 使用做题 -> 检查 -> 发现错误 -> 修正 -> 再检查的循环。这种迭代式的 DeepSeekMath 循环能解决单次尝试无法解决的难题。

IMO 金牌水平

DeepSeekMath 在 IMO 2025 和 Putnam 2024 等世界顶尖数学竞赛中表现出色,超越了众多人类选手。

为什么只看答案不够?

传统的强化学习 (Outcome Reward) 就像一个只看答案的老师。这导致模型学会了"凑答案"。DeepSeekMath 通过训练过程验证器 (Process Verifier) 来独立评估每个推理步骤,从而解决了这个问题。

结果奖励 (Traditional)

问题:计算 limit(x->0) (sin x) / x
解法: 因为 sin 0 = 0,x = 0。 所以 0/0 = 1(瞎猜)。 答案:1。
奖励:✅ +1.0 (因为答案对)

False Positive: Wrong reasoning accepted!

过程验证 (Math-V2)

解法: 因为 sin 0 = 0,x = 0。 所以 0/0 = 1(瞎猜)。 答案:1。
验证:❌ 0.0 (逻辑错误)
解法: 使用洛必达法则。 上下求导得 (cos x) / 1。 代入 x=0,cos 0 = 1。 答案:1。
验证:✅ 1.0 (逻辑严密)

交互演示:模型是如何"自省"的?

点击下方按钮,观察 DeepSeekMath 如何在没有标准答案的情况下,通过自我验证机制发现并纠正逻辑漏洞。这种自我纠正能力正是 DeepSeekMath 区别于传统数学推理模型的关键。

问题:证明对于所有正实数 x, x + 1/x ≥ 2
1. 尝试解题 (Generator)
2. 自我审查 (Verifier)
3. 修正推理 (Refinement)
4. 最终验证 (Final Check)

Ready to solve...

Generator (Draft)

初稿: 令 f(x) = x + 1/x。 对 f(x) 求导得 f'(x) = 1 + 1/x^2。 令 f'(x) = 0,解得 x^2 = -1。 因为实数域无解,所以...

Score: 0.0
Verifier Feedback

审查报告: [错误检测] 第2步求导错误。f'(x) 应该是 1 - 1/x^2。 [逻辑漏洞] x^2=-1 无解推导不出极值点信息。 评分:0/1 (建议重做)

Flaw Detected
Generator (Correction)

修正后: 使用基本不等式 (AM-GM)。 对于正实数 x, 1/x > 0。 根据均值不等式:x + 1/x ≥ 2√(x * 1/x) = 2. 当且仅当 x = 1/x 即 x=1 时等号成立。

Score: 1.0
Final Verification

审查报告: [步骤检查] AM-GM 使用条件满足 (x>0)。 [逻辑检查] 推导严谨,等号条件已给出。 评分:1/1 (完美)

训练流水线:Meta-Verification

为了训练 DeepSeekMath 中公正的"检查员"(Verifier),DeepSeek 引入了"元检查"(Meta-Verification) 机制,防止检查员产生幻觉错误报告。这种三层管线是 DeepSeekMath 方法所独有的。

Generator (做题)
生成证明
Verifier (阅卷)
指出错误
Analysis
NEW!
Meta-Verifier (督查)
这个错误真的存在吗?
?

Why Meta-Verification?

DeepSeekMath 的 Verifier 可能会在没有错误的地方挑刺(假阳性)。Meta-Verifier 负责复核 Verifier 的评判,确保只有真正的错误才会被惩罚,维护 DeepSeekMath 训练信号的完整性。

超越人类顶尖水平

DeepSeekMath 在全球最难的数学竞赛中取得了令人瞩目的成绩,证明了 DeepSeekMath 的自我验证方法确实能产生真正优越的数学推理能力。

Putnam 2024
118/120
超越人类最高分 (90分)
IMO 2025
5/6
金牌水平
CMO 2024
Gold
中国数学奥林匹克

GRPO + Self-Verification

DeepSeekMath-V2 的核心突破在于结合了 R1 的 GRPO 算法和专门设计的“自我验证”机制。 通过让模型在生成过程中不断进行“自我审查”,它极大地提高了在复杂数学证明任务上的准确率, 同时也为合成高质量的数学训练数据提供了一条自动化路径。

#NoCriticModel#IterativeRefinement#SyntheticData

常见问题 (FAQ)

不需要。DeepSeekMath 使用完全自动化的闭环。我们训练了一个 Verifier 模型来模拟人类阅卷,它给出的反馈被用来训练 Generator 模型。这种"左右互搏"的训练方式让 DeepSeekMath 在没有人类干预的情况下不断变强。
两者都使用了强化学习 (GRPO),但 DeepSeekMath 更专注于"过程奖励" (Process Reward)。R1 更多是通过最终答案来反推思考过程,而 DeepSeekMath 明确训练模型去一步步检查逻辑漏洞,更适合严谨的数学证明。
如果 DeepSeekMath 的 Verifier 经过多次生成和修正后依然给出低分,模型会倾向于诚实地承认无法解决,或者给出目前为止最有把握的部分步骤。相比于传统模型一本正经地胡说八道,这是一个巨大的进步。
可以。DeepSeekMath 的自我验证循环对几何题特别有效,因为几何证明具有清晰的逻辑依赖关系,Verifier 可以逐步检查。DeepSeekMath 在 IMO 和 CMO 竞赛的几何题目中都展现了强大的表现,这些题目正是需要严谨的逐步推理的场景。
这正是 Meta-Verifier 要解决的问题。如果 DeepSeekMath 的 Verifier 过于宽松,有缺陷的证明就会被奖励。Meta-Verifier 作为二阶检查,对照已知的正确和错误解答来审查 Verifier 的判断。这种三层层级确保 DeepSeekMath 在整个训练过程中保持高标准。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

Math-V2 相比传统模型多了什么机制?