探索推理的极限

DeepSeek Model 1
Visualization

从 R1 开始，重新定义 AI 的思考方式。我们用可交互的方式，带你读懂 DeepSeek Model 1 最硬核的底层架构创新。

为什么是 DeepSeek Model 1?

DeepSeek Model 1 (以 R1 为代表) 标志着通用人工智能 (AGI) 的一个重要转折点：模型不再仅仅是预测下一个词，而是学会了'思考'。DeepSeek 通过纯强化学习实现了这一突破，证明了推理能力可以在没有显式人类指令的情况下涌现。

DeepSeek (深度求索) 作为一家中国顶尖的 AI 实验室，以开源精神和极致效率著称。DeepSeek Model 1 不仅在性能上比肩闭源顶流 (如 o1)，更重要的是，它公开了 MLA、MoE 负载均衡、mHC 等让 DeepSeek 创新成果惠及每个人的底层技术。

Model 1 开源

极致推理

代码逻辑

mission.txt

def solve_agi():

# 初始化 Model 1 (R1)

vision = "推理涌现"

strategy = "纯强化学习"

innovation = ["MLA", "DeepSeekMoE"]

return AGI

671B

Model 1 参数规模

37B

推理激活参数

$5.6M

超低训练成本

148K

Token/s (极速)

Model 1 的技术基石

DeepSeek Model 1 (R1/V3) 如何在保持高性能的同时实现极致的推理效率？

MLA

Multi-Head Latent Attention. 大幅压缩 KV Cache，显存占用减少 90%。

DeepSeekMoE

精细化专家混合。引入共享专家 (Shared Experts)，知识边界更清晰。

MTP

多 Token 预测。一次预测多个词，训练更高效，推理支持推测解码。

FP8 Training

全链路 FP8 混合精度训练。在不损失精度的前提下，计算速度翻倍。

通往 Model 1 之路

DeepSeek 的每一步积累，最终汇聚成了 Model 1 的爆发。

LATE 2023

DeepSeek Coder

不仅是代码补全，更展示了在代码逻辑推理上的强大能力。确立了'代码数据提升通用推理'的路线。

EARLY 2024

DeepSeek MoE

提出了细粒度专家混合 (Fine-grained MoE) 和共享专家 (Shared Experts) 机制，解决了传统 MoE 的知识冗余和负载不均问题。

MID 2024

DeepSeek-V2

引入 MLA (Multi-Head Latent Attention)，大幅降低 KV Cache 显存占用，让长文本推理成本暴跌。

LATE 2024

DeepSeek-V3

当下最强的开源 MoE 模型。包含无辅助 Loss 负载均衡、多 Token 预测和极致的 FP8 训练效率。

EARLY 2025

DeepSeek Model 1 (R1)

里程碑时刻。通过纯强化学习 (Pure RL) 激励推理能力涌现。采用 GRPO 算法，无需 Critic 模型，性能比肩 OpenAI o1。

LATE 2025

DeepSeek-OCR

"Contexts Optical Compression". 探索利用视觉模态作为文本的高效压缩媒介。一图胜千言，大幅降低长 Context 的 Token 消耗。

核心论文解读

Model 1

DeepSeek Model 1 (R1): 强化推理

Model 1 如何学会"思考"？揭示通过纯强化学习（GRPO）引发推理能力涌现的秘密。无需海量标注数据，模型自己学会了检查错误、反思和长链推理。

交互式演示

即将推出

DeepSeek-V4 (即将推出)

约1T参数、100万上下文窗口、NSA稀疏注意力、Engram记忆系统和稀疏FP8解码。下一代前沿模型。

探索架构

Math SOTA

Math-V2

不仅会做题，还会检查作业。探索模型如何通过"自我验证"实现奥数金牌水平的推理。

Demo

New!

DeepSeek-OCR

Optical Context Compression. 一图胜千言，利用视觉模态将文本 Token 压缩 10 倍以上。

交互式演示

Architecture

DeepSeek-V3 技术报告

揭秘无辅助 Loss 负载均衡、多 Token 预测 (MTP) 和极致性价比的 FP8 训练。

了解更多

Architecture

mHC: 驯服'狂野'连接

大模型如何越做越宽而不崩溃？了解 Manifold-Constrained Hyper-Connections。

了解更多

New!

DualPipe: 流水线并行

双向流水线调度，将计算与通信重叠，实现约 50% 的气泡减少。

交互式演示

为什么关注 Model 1？

我们将枯燥的学术 PDF 转化为生动的互动体验。

小白友好

没有复杂的数学公式堆砌。我们使用通俗易懂的类比（如'查字典'、'驯服野马'）来解释 DeepSeek 创新的核心概念。

交互式模拟

别只是看，动手试一试！亲自调整参数，实时观察 DeepSeek 架构创新的运作方式。直观感受 DeepSeek 模型如何处理信息。

紧跟前沿

第一时间跟进 DeepSeek 团队的 arXiv 论文。在这里，你不仅能看到 DeepSeek 的代码，还能看懂每一个 DeepSeek 突破背后的架构图。

Model 1 生态支持

得益于开源社区，你可以在任何地方运行 DeepSeek 模型。

Ollama

vLLM

🤗 HuggingFace

SGLang

常见问题 (FAQ)

在这个网站中，"DeepSeek Model 1" 指代 DeepSeek-R1 及其背后的新一代推理模型技术。它代表了 DeepSeek 的开源模型在逻辑推理能力上首次追平闭源顶尖模型（如 OpenAI o1）的里程碑，证明了开源社区可以在前沿领域竞争。

几乎不需要。我们假设你对 AI 有最基本的了解（知道什么是模型），剩下的交给我们。所有复杂的概念都会被拆解为简单的模块。

不是。这是一个由社区爱好者构建的非官方可视化项目，旨在帮助更多人理解 DeepSeek 的研究成果。官方网站是 deepseek.com。

为了保证通俗易懂，我们在视觉表达上做了一定的简化（类比），但核心逻辑和数学原理严格忠实于原论文。每一个架构图和算法解释都经过与已发表的 DeepSeek 研究论文的交叉验证。

DeepSeek Model 1 Visualization

为什么是 DeepSeek Model 1?

Model 1 的技术基石

MLA

DeepSeekMoE

MTP

FP8 Training

通往 Model 1 之路

DeepSeek Coder

DeepSeek MoE

DeepSeek-V2

DeepSeek-V3

DeepSeek Model 1 (R1)

DeepSeek-OCR

核心论文解读

DeepSeek Model 1 (R1): 强化推理

DeepSeek-V4 (即将推出)

Math-V2

DeepSeek-OCR

DeepSeek-V3 技术报告

mHC: 驯服'狂野'连接

DualPipe: 流水线并行

为什么关注 Model 1？

小白友好

交互式模拟

紧跟前沿

Model 1 生态支持

常见问题 (FAQ)

DeepSeek Model 1
Visualization