通过强化学习激励推理能力

DeepSeek R1

不需要人类教它怎么想。 只要给它奖励,它就能学会思考。

纯 RL 训练

DeepSeek-R1-Zero 证明了:仅靠纯强化学习,无需任何监督微调数据,模型就能自然涌现出自我反思 (Self-Reflection) 和长链推理能力。

GRPO 算法

DeepSeek-R1 摒弃了传统的 Critic 模型,采用分组相对策略优化 (GRPO),在保持强大推理性能的同时大幅降低训练成本。

性能怪兽

DeepSeek-R1 在 Math-500、AIME 2024 等基准测试上性能比肩 OpenAI o1,且完全开源——这是开源 AI 社区的一个里程碑。

"Aha!" 时刻

在 DeepSeek-R1-Zero 的训练中,研究人员没有教模型如何写思维链 (CoT)。但随着强化学习的进行,为了获得更高的奖励,DeepSeek-R1-Zero 自发地学会了延长思考时间,甚至学会了用 Wait... 来打断自己进行纠错——这是一种真正的涌现行为。

1. 早期探索 (随机猜测)Low/Mid Reward
User
Solve x + 2 = 4
R1
The equation is x + 2 = 4. I guess x is 1? No maybe 3. The answer is 5.
Result: Incorrect ❌

从 Zero 到 One:冷启动数据的魔力

DeepSeek-R1-Zero 虽然聪明,但就像一个不修边幅的天才(中英夹杂、格式混乱)。DeepSeek-R1 引入了少量的"冷启动数据"——仅数千条高质量示例——就让这位天才学会了如何优雅地表达,同时保持了其推理能力。

DeepSeek-R1-Zero

Pure RL

纯 RL 训练,无人类引导。

Wait... the integral of x^2 is x^3/3... 呃不对,integrating limits... 好像要用 Newton-Leibniz formula. Let me check... 结果应该是 1/3. (混合语言,思维跳跃,难以阅读)
User Choice

DeepSeek-R1

Cold Start

RL + 冷启动微调。

<think> 1. Identify the function: f(x) = x^2. 2. Apply power rule for integration: ∫x^n dx = x^(n+1)/(n+1). 3. Calculate definite integral from 0 to 1: [x^3/3] from 0 to 1 = 1/3 - 0 = 1/3. </think> The answer is 1/3.

洞察:仅需数千条高质量的 CoT 数据作为起点,就能引导 RL 产生人类可读的推理过程,同时保持强大的性能。

GRPO: 抛弃 Critic 模型

传统的 RLHF (PPO) 需要一个巨大的 Critic 模型来评估每一步。DeepSeek-R1 提出了 GRPO:对于同一个问题,让模型生成一组答案,然后对比这组答案的好坏。这完全消除了对单独奖励模型的需求。

算法演示

Input Prompt
Solve: 2x + 3 = 7
Output 1: x = 1 (Wrong)
Reward: 0
Output 2: x = 2 (Correct)
Reward: 1
Output 3: x = 2 (Correct)
Reward: 1
Output 4: x = 5 (Wrong)
Reward: 0

核心公式

A_i = (Reward_i - Mean(Group)) / Std(Group)

GRPO 不需要额外的 Critic 网络来打分。它只是简单地问:"在这个小组里,谁表现得比平均水平好?" 表现好的被鼓励,表现差的被抑制。

PPO
Critic Model Needed
High Cost 💰
R1 Choice
GRPO
No Critic Model
Efficient 🚀

DeepSeek-R1 是如何炼成的?

DeepSeek-R1 不是简单的一步到位,而是一个逐步构建推理能力的四阶段精密训练流水线。

1. 冷启动 (Cold Start)

使用少量高质量的'长链思维'(CoT) 数据微调 Base 模型。这让模型有了基本的推理概念,能看懂 <think> 标签。

Technical Detail

Data: Small amount of high-quality CoT data.

Start
End

比肩闭源顶流

DeepSeek-R1 在多项核心基准测试中,性能已追平甚至超越 OpenAI o1-1217。

AIME 2024MATH-500CodeforcesMMLU
OpenAI o1-1217
DeepSeek-R1

注:数据来源于 DeepSeek-R1 论文。

知识蒸馏:让小模型也变强

DeepSeek-R1 强大的推理能力可以通过知识蒸馏"传授"给更小的模型。通过使用 DeepSeek-R1 生成的 80 万条样本对小模型进行微调,小模型也能获得接近完整 DeepSeek-R1 水平的惊人推理能力。

Teacher Model

DeepSeek-R1

671B Parameters (MoE)

Self-ReflectionLong CoT

Distill-Qwen-32B

AIME 2024: Better than O1-mini.

Distill-Llama-70B

Reasoning transfer across architectures.

常见问题 (FAQ)

这是因为 DeepSeek-R1-Zero 是纯强化学习训练出来的,没有人告诉它"必须用中文"或"格式要漂亮"。它只在乎能不能算出正确答案。这种"混乱"恰恰证明了推理能力是 DeepSeek-R1-Zero 自发涌现的,而不是人类教的。
省钱。传统的 PPO 算法需要一个和主模型一样大的 Critic 模型来打分,显存消耗巨大。DeepSeek-R1 的 GRPO 通过"小组赛"机制(对比一组输出的优劣)直接省去了 Critic 模型,让大规模 RL 训练变得从容。
不完全是。在 DeepSeek-R1 中,我们通过少量的冷启动数据(Cold Start Data)引导模型使用这个标签。但在 DeepSeek-R1-Zero(纯 RL)中,模型确实自发学会了通过延长输出来进行思考,虽然没有标签,但思维链的本质是一样的。
DeepSeek-R1 蒸馏的小模型实现了令人印象深刻的推理性能,虽然与完整的 DeepSeek-R1 相比仍有差距。DeepSeek-R1 的 32B 和 70B 蒸馏版本保留了大部分推理能力,同时可以在消费级硬件上运行,让 DeepSeek-R1 的创新成果惠及更广泛的用户群体。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

DeepSeek-R1-Zero 训练过程中出现了什么有趣的现象?