Question 1

DeepSeekMath 的'自我验证'需要人工参与吗？

Accepted Answer

不需要。DeepSeekMath 使用完全自动化的闭环。我们训练了一个 Verifier 模型来模拟人类阅卷，它给出的反馈被用来训练 Generator 模型。这种"左右互搏"的训练方式让 DeepSeekMath 在没有人类干预的情况下不断变强。

Question 2

DeepSeekMath 和 R1 有什么区别？

Accepted Answer

两者都使用了强化学习 (GRPO)，但 DeepSeekMath 更专注于"过程奖励" (Process Reward)。R1 更多是通过最终答案来反推思考过程，而 DeepSeekMath 明确训练模型去一步步检查逻辑漏洞，更适合严谨的数学证明。

Question 3

DeepSeekMath 遇到完全不会的题怎么办？

Accepted Answer

如果 DeepSeekMath 的 Verifier 经过多次生成和修正后依然给出低分，模型会倾向于诚实地承认无法解决，或者给出目前为止最有把握的部分步骤。相比于传统模型一本正经地胡说八道，这是一个巨大的进步。

Question 4

DeepSeekMath 能处理竞赛级别的几何题吗？

Accepted Answer

可以。DeepSeekMath 的自我验证循环对几何题特别有效，因为几何证明具有清晰的逻辑依赖关系，Verifier 可以逐步检查。DeepSeekMath 在 IMO 和 CMO 竞赛的几何题目中都展现了强大的表现，这些题目正是需要严谨的逐步推理的场景。

Question 5

DeepSeekMath 如何防止 Verifier 过于宽松？

Accepted Answer

这正是 Meta-Verifier 要解决的问题。如果 DeepSeekMath 的 Verifier 过于宽松，有缺陷的证明就会被奖励。Meta-Verifier 作为二阶检查，对照已知的正确和错误解答来审查 Verifier 的判断。这种三层层级确保 DeepSeekMath 在整个训练过程中保持高标准。

DeepSeek Math-V2

不仅会做题，还会检查作业。探索模型如何通过"自我验证"实现奥数金牌水平的推理。

自我验证 (Self-Verification)

生成-验证循环

IMO 金牌水平

为什么只看答案不够？

结果奖励 (Traditional)

过程验证 (Math-V2)

交互演示：模型是如何"自省"的？

训练流水线：Meta-Verification

Why Meta-Verification?

超越人类顶尖水平

GRPO + Self-Verification

常见问题 (FAQ)

知识小测验

Math-V2 相比传统模型多了什么机制？