DeepSeek R1
不需要人类教它怎么想。 只要给它奖励,它就能学会思考。
"Aha!" 时刻
在 DeepSeek-R1-Zero 的训练中,研究人员没有教模型如何写思维链 (CoT)。但随着强化学习的进行,为了获得更高的奖励,DeepSeek-R1-Zero 自发地学会了延长思考时间,甚至学会了用 Wait... 来打断自己进行纠错——这是一种真正的涌现行为。
从 Zero 到 One:冷启动数据的魔力
DeepSeek-R1-Zero 虽然聪明,但就像一个不修边幅的天才(中英夹杂、格式混乱)。DeepSeek-R1 引入了少量的"冷启动数据"——仅数千条高质量示例——就让这位天才学会了如何优雅地表达,同时保持了其推理能力。
DeepSeek-R1-Zero
Pure RL纯 RL 训练,无人类引导。
DeepSeek-R1
Cold StartRL + 冷启动微调。
洞察:仅需数千条高质量的 CoT 数据作为起点,就能引导 RL 产生人类可读的推理过程,同时保持强大的性能。
GRPO: 抛弃 Critic 模型
传统的 RLHF (PPO) 需要一个巨大的 Critic 模型来评估每一步。DeepSeek-R1 提出了 GRPO:对于同一个问题,让模型生成一组答案,然后对比这组答案的好坏。这完全消除了对单独奖励模型的需求。
算法演示
核心公式
GRPO 不需要额外的 Critic 网络来打分。它只是简单地问:"在这个小组里,谁表现得比平均水平好?" 表现好的被鼓励,表现差的被抑制。
DeepSeek-R1 是如何炼成的?
DeepSeek-R1 不是简单的一步到位,而是一个逐步构建推理能力的四阶段精密训练流水线。
1. 冷启动 (Cold Start)
使用少量高质量的'长链思维'(CoT) 数据微调 Base 模型。这让模型有了基本的推理概念,能看懂 <think> 标签。
Technical Detail
Data: Small amount of high-quality CoT data.
比肩闭源顶流
DeepSeek-R1 在多项核心基准测试中,性能已追平甚至超越 OpenAI o1-1217。
注:数据来源于 DeepSeek-R1 论文。
知识蒸馏:让小模型也变强
DeepSeek-R1 强大的推理能力可以通过知识蒸馏"传授"给更小的模型。通过使用 DeepSeek-R1 生成的 80 万条样本对小模型进行微调,小模型也能获得接近完整 DeepSeek-R1 水平的惊人推理能力。
DeepSeek-R1
671B Parameters (MoE)
Distill-Qwen-32B
AIME 2024: Better than O1-mini.
Distill-Llama-70B
Reasoning transfer across architectures.
常见问题 (FAQ)
知识小测验
看看你掌握了多少核心知识点?
