视觉上下文压缩

DeepSeek OCR

一图胜千言。 探索如何用视觉模态将长文本压缩 10 倍。

光学压缩

1000 个单词的文档通常需要 ~1300 个 Text Token,但 DeepSeek-OCR 只需 ~100 个 Vision Token 即可精准还原。这意味着 DeepSeek-OCR 可以用传统文本分词成本的十分之一来处理整本书籍。

DeepEncoder

专为 DeepSeek-OCR 管线中的压缩而设计的视觉编码器。它结合了 SAM 的局部感知能力和 CLIP 的全局语义理解,通过 16x 压缩层连接,使 DeepSeek-OCR 能够同时捕获细粒度细节和高层语义。

全能解析

DeepSeek-OCR 不仅能识别纯文本,还能解析复杂的图表、数学公式、化学分子式和几何图形。这种多功能性使 DeepSeek-OCR 适用于科学论文、财务报告和各种领域的技术文档。

Contexts Optical Compression

为什么要用图片传文字?因为图片是更高维的信息载体。拖动滑块,观察 DeepSeek-OCR 如何在极低的 Token 占用下保持高精度的解码。DeepSeek-OCR 的核心洞察在于,视觉表示编码了空间关系、字体层次和排版语义,而这些用文本描述需要数千个额外的 Token。

压缩倍率 (Text/Vision Token Ratio)10x
No Compression (1x)DeepSeek Sweet Spot (10x)Extreme (20x)
Original

Pure Text

Cost: 1000 Tokens
Compress
DeepSeek-OCR

Visual Tokens

Cost: 100 Tokens
OCR 还原精度98%

Optimal Zone

90.0%
Token 节省

DeepSeek-OCR 通过将文档视为图像而非字符序列来实现其卓越的压缩效果。这种光学方法保留了传统文本分词器会丢弃的表格、标题和排版等结构信息,同时使用少 10 倍的 Token。DeepSeek-OCR 的压缩管线采用端到端训练,确保视觉 Token 保留最大的语义保真度。

DeepEncoder 架构

为了同时实现高分辨率输入和低 Token 输出,DeepSeek 为 DeepSeek-OCR 设计了名为 DeepEncoder 的串联式架构。这个三阶段管线以全分辨率处理文档,同时大幅压缩输出 Token 数量。

Input Image
(High Res)

1. SAM Encoder

Visual Perception (80M)

2. Conv Compressor

16x Downsampling

3. CLIP Encoder

Visual Knowledge (300M)
Compressed
Latent Tokens

Hover or click on a module to see details

DeepSeek-OCR 的架构是刻意模块化的:SAM 负责感知,Compressor 负责效率,CLIP 负责理解。这种关注点分离使每个组件都可以独立优化,整个 DeepSeek-OCR 管线可以针对特定文档类型(如发票、学术论文或手写笔记)进行端到端微调。

多分辨率适配 (Adaptive Resolution)

Tiny
512x512
64 Tokens
Base
1024x1024
256 Tokens
Large
1280x1280
400 Tokens
Pro
Gundam
Tiling
Dynamic Tokens

DeepSeek-OCR 支持多种分辨率模式,从极速的 Tiny 模式到处理超大报纸的 Gundam (高达模式) 拼接模式,灵活应对不同场景。

常见问题 (FAQ)

传统 OCR 只能提取原始文字,会丢失排版结构、颜色编码和图表关系等重要的视觉语义信息。而且将 OCR 提取出的长文本直接喂给 LLM 会消耗大量的 Token。DeepSeek-OCR 直接将视觉信息压缩为紧凑的 Token,既保留了原始文档的完整语义上下文,又节省了成本。
可以。DeepSeek-OCR 采用了多分辨率适配策略。对于模糊或复杂的图片,DeepSeek-OCR 会自动切换到高分辨率模式(甚至切片处理),利用 SAM 强大的局部感知能力,即使在具有挑战性的视觉条件下依然能保持很高的识别率。
应用非常广泛。DeepSeek-OCR 擅长处理超长的财报 PDF、分析复杂的科研论文图表、解析法律合同,以及让手机端的 AI 助手能够"看懂"你的屏幕内容,而不需要消耗高昂的云端计算资源。
DeepSeek-OCR 将文本视为视觉模式而非字符序列,这使其天然具有语言无关性。DeepEncoder 架构识别的是视觉字形,无论是拉丁文、中文、阿拉伯文还是天城文。这种视觉方法意味着 DeepSeek-OCR 可以自然地处理混合脚本的多语言文档,无需单独的语言特定 OCR 引擎。
虽然 GPT-4V 等模型以完整的 Token 成本处理图像(每张图像通常需要数百个 Token),但 DeepSeek-OCR 专门针对文本密集型视觉内容压缩进行了优化。DeepSeek-OCR 通过其专用的 DeepEncoder 管线,用少 10 倍的 Token 实现文档理解,使其在以文本为主的文档处理工作负载中远比其他方案更具成本效益。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 4Score: 0

DeepSeek-OCR 的核心理念是?