Question 1

为什么不直接用传统的 OCR (如 Tesseract)？

Accepted Answer

传统 OCR 只能提取原始文字，会丢失排版结构、颜色编码和图表关系等重要的视觉语义信息。而且将 OCR 提取出的长文本直接喂给 LLM 会消耗大量的 Token。DeepSeek-OCR 直接将视觉信息压缩为紧凑的 Token，既保留了原始文档的完整语义上下文，又节省了成本。

Question 2

DeepSeek-OCR 能识别模糊的图片吗？

Accepted Answer

可以。DeepSeek-OCR 采用了多分辨率适配策略。对于模糊或复杂的图片，DeepSeek-OCR 会自动切换到高分辨率模式（甚至切片处理），利用 SAM 强大的局部感知能力，即使在具有挑战性的视觉条件下依然能保持很高的识别率。

Question 3

DeepSeek-OCR 有什么实际应用？

Accepted Answer

应用非常广泛。DeepSeek-OCR 擅长处理超长的财报 PDF、分析复杂的科研论文图表、解析法律合同，以及让手机端的 AI 助手能够"看懂"你的屏幕内容，而不需要消耗高昂的云端计算资源。

Question 4

DeepSeek-OCR 如何处理多语言文档？

Accepted Answer

DeepSeek-OCR 将文本视为视觉模式而非字符序列，这使其天然具有语言无关性。DeepEncoder 架构识别的是视觉字形，无论是拉丁文、中文、阿拉伯文还是天城文。这种视觉方法意味着 DeepSeek-OCR 可以自然地处理混合脚本的多语言文档，无需单独的语言特定 OCR 引擎。

Question 5

DeepSeek-OCR 与 GPT-4V 等多模态模型有什么不同？

Accepted Answer

虽然 GPT-4V 等模型以完整的 Token 成本处理图像（每张图像通常需要数百个 Token），但 DeepSeek-OCR 专门针对文本密集型视觉内容压缩进行了优化。DeepSeek-OCR 通过其专用的 DeepEncoder 管线，用少 10 倍的 Token 实现文档理解，使其在以文本为主的文档处理工作负载中远比其他方案更具成本效益。

DeepSeek OCR

一图胜千言。探索如何用视觉模态将长文本压缩 10 倍。

光学压缩

DeepEncoder

全能解析

Contexts Optical Compression

Pure Text

Visual Tokens

DeepEncoder 架构

1. SAM Encoder

2. Conv Compressor

3. CLIP Encoder

多分辨率适配 (Adaptive Resolution)

常见问题 (FAQ)

知识小测验

DeepSeek-OCR 的核心理念是？