通过强化学习激励推理能力

DeepSeek R1

不需要人类教它怎么想。只要给它奖励，它就能学会思考。

纯 RL 训练

DeepSeek-R1-Zero 证明了：仅靠纯强化学习，无需任何监督微调数据，模型就能自然涌现出自我反思 (Self-Reflection) 和长链推理能力。

GRPO 算法

DeepSeek-R1 摒弃了传统的 Critic 模型，采用分组相对策略优化 (GRPO)，在保持强大推理性能的同时大幅降低训练成本。

性能怪兽

DeepSeek-R1 在 Math-500、AIME 2024 等基准测试上性能比肩 OpenAI o1，且完全开源——这是开源 AI 社区的一个里程碑。

"Aha!" 时刻

在 DeepSeek-R1-Zero 的训练中，研究人员没有教模型如何写思维链 (CoT)。但随着强化学习的进行，为了获得更高的奖励，DeepSeek-R1-Zero 自发地学会了延长思考时间，甚至学会了用 Wait... 来打断自己进行纠错——这是一种真正的涌现行为。

1. 早期探索 (随机猜测)Low/Mid Reward

User

Solve x + 2 = 4

The equation is x + 2 = 4. I guess x is 1? No maybe 3. The answer is 5.

Result: Incorrect ❌

从 Zero 到 One：冷启动数据的魔力

DeepSeek-R1-Zero 虽然聪明，但就像一个不修边幅的天才（中英夹杂、格式混乱）。DeepSeek-R1 引入了少量的"冷启动数据"——仅数千条高质量示例——就让这位天才学会了如何优雅地表达，同时保持了其推理能力。

DeepSeek-R1-Zero

Pure RL

纯 RL 训练，无人类引导。

Wait... the integral of x^2 is x^3/3... 呃不对，integrating limits... 好像要用 Newton-Leibniz formula. Let me check... 结果应该是 1/3. (混合语言，思维跳跃，难以阅读)

User Choice

DeepSeek-R1

Cold Start

RL + 冷启动微调。

<think> 1. Identify the function: f(x) = x^2. 2. Apply power rule for integration: ∫x^n dx = x^(n+1)/(n+1). 3. Calculate definite integral from 0 to 1: [x^3/3] from 0 to 1 = 1/3 - 0 = 1/3. </think> The answer is 1/3.

洞察：仅需数千条高质量的 CoT 数据作为起点，就能引导 RL 产生人类可读的推理过程，同时保持强大的性能。

GRPO: 抛弃 Critic 模型

传统的 RLHF (PPO) 需要一个巨大的 Critic 模型来评估每一步。DeepSeek-R1 提出了 GRPO：对于同一个问题，让模型生成一组答案，然后对比这组答案的好坏。这完全消除了对单独奖励模型的需求。

算法演示

Input Prompt

Solve: 2x + 3 = 7

Output 1: x = 1 (Wrong)

Reward: 0

Output 2: x = 2 (Correct)

Reward: 1

Output 3: x = 2 (Correct)

Reward: 1

Output 4: x = 5 (Wrong)

Reward: 0

核心公式

A_i = (Reward_i - Mean(Group)) / Std(Group)

GRPO 不需要额外的 Critic 网络来打分。它只是简单地问："在这个小组里，谁表现得比平均水平好？" 表现好的被鼓励，表现差的被抑制。

PPO

Critic Model Needed

High Cost 💰

R1 Choice

GRPO

No Critic Model

Efficient 🚀

DeepSeek-R1 是如何炼成的？

DeepSeek-R1 不是简单的一步到位，而是一个逐步构建推理能力的四阶段精密训练流水线。

1. 冷启动 (Cold Start)

使用少量高质量的'长链思维'(CoT) 数据微调 Base 模型。这让模型有了基本的推理概念，能看懂 <think> 标签。

Technical Detail

Data: Small amount of high-quality CoT data.

Start

End

比肩闭源顶流

DeepSeek-R1 在多项核心基准测试中，性能已追平甚至超越 OpenAI o1-1217。

OpenAI o1-1217

DeepSeek-R1

注：数据来源于 DeepSeek-R1 论文。

知识蒸馏：让小模型也变强

DeepSeek-R1 强大的推理能力可以通过知识蒸馏"传授"给更小的模型。通过使用 DeepSeek-R1 生成的 80 万条样本对小模型进行微调，小模型也能获得接近完整 DeepSeek-R1 水平的惊人推理能力。

Teacher Model

DeepSeek-R1

671B Parameters (MoE)

Self-ReflectionLong CoT

Distill-Qwen-32B

AIME 2024: Better than O1-mini.

Distill-Llama-70B

Reasoning transfer across architectures.

常见问题 (FAQ)

这是因为 DeepSeek-R1-Zero 是纯强化学习训练出来的，没有人告诉它"必须用中文"或"格式要漂亮"。它只在乎能不能算出正确答案。这种"混乱"恰恰证明了推理能力是 DeepSeek-R1-Zero 自发涌现的，而不是人类教的。

省钱。传统的 PPO 算法需要一个和主模型一样大的 Critic 模型来打分，显存消耗巨大。DeepSeek-R1 的 GRPO 通过"小组赛"机制（对比一组输出的优劣）直接省去了 Critic 模型，让大规模 RL 训练变得从容。

不完全是。在 DeepSeek-R1 中，我们通过少量的冷启动数据（Cold Start Data）引导模型使用这个标签。但在 DeepSeek-R1-Zero（纯 RL）中，模型确实自发学会了通过延长输出来进行思考，虽然没有标签，但思维链的本质是一样的。

DeepSeek-R1 蒸馏的小模型实现了令人印象深刻的推理性能，虽然与完整的 DeepSeek-R1 相比仍有差距。DeepSeek-R1 的 32B 和 70B 蒸馏版本保留了大部分推理能力，同时可以在消费级硬件上运行，让 DeepSeek-R1 的创新成果惠及更广泛的用户群体。

知识小测验

看看你掌握了多少核心知识点？

QUESTION 1 / 3Score: 0

DeepSeek R1

不需要人类教它怎么想。只要给它奖励，它就能学会思考。

纯 RL 训练

GRPO 算法

性能怪兽

"Aha!" 时刻

从 Zero 到 One：冷启动数据的魔力

DeepSeek-R1-Zero

DeepSeek-R1

GRPO: 抛弃 Critic 模型

算法演示

核心公式

DeepSeek-R1 是如何炼成的？

1. 冷启动 (Cold Start)

2. 推理 RL (Reasoning RL)

3. 拒绝采样 (Rejection Sampling)

4. 全面 RL (All-Rounder RL)

1. 冷启动 (Cold Start)

Technical Detail

比肩闭源顶流

知识蒸馏：让小模型也变强

DeepSeek-R1

Distill-Qwen-32B

Distill-Llama-70B

常见问题 (FAQ)

知识小测验

DeepSeek-R1-Zero 训练过程中出现了什么有趣的现象？

DeepSeek R1

不需要人类教它怎么想。 只要给它奖励，它就能学会思考。

纯 RL 训练

GRPO 算法

性能怪兽

"Aha!" 时刻

从 Zero 到 One：冷启动数据的魔力

DeepSeek-R1-Zero

DeepSeek-R1

GRPO: 抛弃 Critic 模型

算法演示

核心公式

DeepSeek-R1 是如何炼成的？

1. 冷启动 (Cold Start)

2. 推理 RL (Reasoning RL)

3. 拒绝采样 (Rejection Sampling)

4. 全面 RL (All-Rounder RL)

1. 冷启动 (Cold Start)

Technical Detail

比肩闭源顶流

知识蒸馏：让小模型也变强

DeepSeek-R1

Distill-Qwen-32B

Distill-Llama-70B

常见问题 (FAQ)

知识小测验

DeepSeek-R1-Zero 训练过程中出现了什么有趣的现象？

不需要人类教它怎么想。只要给它奖励，它就能学会思考。