参数记忆 (Weights)+非参数记忆 (N-grams)

Engram: LLM 的无损外挂记忆

为什么要把百科全书塞进神经元里? DeepSeek Engram 架构提出了一种基于 N-gram 的查表机制,从根本上将事实记忆与逻辑推理解耦。

数据即记忆

在 DeepSeek Engram 架构中,知识被索引在海量 N-gram 数据库中,而不是通过反向传播"烧"进权重。这使得 Engram 在不增加模型参数的情况下能存储更多的事实信息。

专注推理

有了 DeepSeek Engram 处理事实回忆,模型参数(Transformer)只需专注于语法、逻辑和复杂推理——这些才是神经网络最擅长的任务。

线性插值

在 DeepSeek Engram 中,最终结果是模型预测与记忆查表的加权融合,将 Transformer 的计算推理能力与基于哈希的即时检索结合在一起。

核心痛点:计算 vs 查表

目前的 AI (Transformers) 处理所有信息的方式都是一样的:昂贵的神经计算。DeepSeek Engram 挑战了这一范式,认识到事实回忆和逻辑推理是根本不同的认知任务。

传统 AI 模型

任务:谁是美国第一任总统?

1. ...
2. ...
3. ...
结果: George Washington (消耗大量算力)
效率低:在浪费脑力回忆死记硬背的事实

Engram 增强模型

任务:谁是美国第一任总统?

识别常见词组...
查表 (Hash Lookup)
结果: George Washington (几乎零算力)
效率高:像查字典一样快

DeepSeek Engram 是如何工作的?

DeepSeek Engram 不使用复杂的神经网络来处理所有内容。相反,Engram 使用 N-gram 来识别常见词组,直接映射到内存地址,完全绕过昂贵的矩阵乘法。

DEMO MODE
The
Capital
of
France
is
The Capital (2-gram)
Capital of (2-gram)
of France (2-gram)
France is (2-gram)
Hash(x)
Engram Memory Table
0x3F1AFound![0.1, 0.5, ...]
0x8B2C...[0.9, 0.2, ...]
0x1D9E...[0.3, 0.8, ...]
0x4A7B...[0.4, 0.1, ...]
1

1. 切分词组 (N-grams)

DeepSeek Engram 不仅看单个词,还看多词组合(如 "Capital of")。这些 N-gram 模式蕴含了可以查表而非计算的固定事实知识。

2

2. 极速哈希 (Hashing)

Engram 通过哈希函数将词组映射到数字 ID。这个过程是确定性的,具有 O(1) 复杂度——完全不需要神经网络计算。

3

3. 检索与融合

Engram 使用哈希 ID 从表中取出对应的"知识向量"。如果检索到的知识与当前上下文相关,Engram 就将其融入模型的预测中。

核心机制:概率融合 (Logit Mixing)

DeepSeek Engram 的核心公式:P = (1 - λ) * P_model + λ * P_engram Engram 如何决定是"自己想"还是"查字典"?通过一个可学习的门控系数 λ (Lambda),它根据上下文自适应调整。

Transformer 模型

P(Paris) = 0.60
P(Lyon) = 0.25
模型通过上下文推理,认为大概率是 Paris,但也犹豫 Lyon。
Context: "The capital of France is..."
Trust Model (λ=0)Trust Memory (λ=1)
λ = 0.50

Engram 内存表

P(Paris) = 0.95
P(Lyon) = 0.00
查表发现历史数据中 "Capital of France" 后面 95% 跟着 "Paris"。
Paris
77.5%
Lyon
12.5%
London
10.0%

论文指出:在预测生僻知识(Long-tail)时,DeepSeek Engram 的 λ 会自动变大(依赖记忆);在进行逻辑推理时,λ 会变小(依赖 Transformer 模型)。这种自适应门控正是 Engram 如此强大的原因。

动手试试:Engram 关注哪里?

在下面的输入框打字。红色越深,代表 Engram 模块介入程度越高(即模型认为这是一个“死知识”,直接查表就行)。

Analysis results will appear here...
Low Activation
High Activation (Memory Lookup)
Advantage

即时领域适应 (Domain Adaptation)

传统的 LLM 想要学习新领域的知识(比如最新的法律条文或公司内部文档),通常需要昂贵的增量预训练。这个过程需要 GPU 集群,可能耗费数天甚至数周。

DeepSeek Engram 彻底改变了这一切。你只需要更新硬盘上的 N-gram 索引表,模型就能立刻"查"到新的领域知识,而无需任何神经网络权重更新。这使得 Engram 非常适合知识频繁变化的企业级部署。

传统: 需重新训练 GPU 集群
Engram: 仅需更新硬盘索引
Old Data (2020)
N-grams indexed
New Data (2025)
Updated N-gram Table Only
Instant
> Query: "Latest 2025 Regulations"
> Found in Engram Table.
> Interpolating... Done.

DeepSeek Engram 和 RAG 有什么不同?

很多人会把 DeepSeek Engram 误认为是 RAG (检索增强生成)。虽然它们都为了解决"幻觉",但实现方式天差地别。Engram 在 Token 级别以 O(1) 哈希查表运行,而 RAG 检索的是完整的文档块。

传统 LLM

Pure Transformer

RAG (检索增强)

Retriever + Generator
WINNER

Engram

N-gram + Model
知识更新速度
Slow
Retrain
Fast
Update Vector DB
Instant
Update Hash Table
推理/响应速度
Fast
Direct Gen
Slow
Retrieve + Read
Ultra Fast
O(1) Lookup
计算消耗 (显存)
High
Params
Very High
Long Context
Low
Sparse Access

黄金比例:U型曲线的发现

DeepSeek Engram 论文发现了一个关键的"预算分配"定律。如果将模型参数总数固定,神经计算和 Engram 记忆之间存在一个最优分配比例:

  • 全给 MoE 专家 (100%):
    虽然聪明,但浪费脑力在记忆琐事上。
  • 混合分配 (~80% 专家 / 20% 内存):
    达到了最佳平衡点(Loss 最低)。这就是 Engram 的威力。

Validation Loss (Lower is Better)

0%20%40%60%100%% MoE Params1.7051.721.7351.75Sweet Spot

专家视点

学术界与工业界如何评价 Engram 架构?

D
Dr. Alex Chen
AI Research Scientist @ Stanford

"Engram 的 U 型曲线发现令人震惊。它不仅验证了'记忆'与'计算'可以解耦,更重要的是给出了具体的黄金比例 (80/20)。这意味着我们长期以来都在浪费算力去训练模型背诵百科全书。"

Via Twitter
S
Sarah Miller
Lead LLM Architect

"对于企业级应用来说,Engram 的'即时领域适应'特性是杀手级的。无需重新预训练,只需更新 N-gram 索引表就能让模型掌握最新的私有数据,这极大地降低了 RAG 系统的复杂度和成本。"

Via LinkedIn
O
OpenAI Observer
Tech Blogger

"DeepSeek 这篇论文回归了本质:N-gram 这种看似古老的技术,在现代 Transformer 架构下焕发了新生。O(1) 复杂度的查表机制可能是解决 Long-tail 知识幻觉的最佳方案。"

Via Paper Review

常见问题 (FAQ)

N-gram 其实是 NLP 领域最古老的技术之一。DeepSeek 的创新在于将其作为 Engram 这个独立的"外挂模块",通过学习的线性插值与最先进的 Transformer 结合。Engram 这种"复古 + 现代"的结合需要极强的数学直觉来平衡神经计算和基于哈希检索之间的权重。
这是一个好问题!如果 Engram 查不到(Unknown),它的预测概率会非常低。此时,线性插值公式中的 λ(门控系数)会自动偏向 Transformer 模型。也就是说,DeepSeek Engram 遇到死知识查字典,遇到新情况自己想——完全无缝衔接。
不会,Engram 反而让模型更聪明。因为我们将记忆任务卸载给了硬盘(N-gram 表),神经网络的参数就可以完全专注于学习逻辑推理、语法结构和情感分析。DeepSeek Engram 体现的正是"好钢用在刀刃上"的理念。
Engram 的 N-gram 表可以扩展到存储在标准磁盘上的数十亿条目。由于 Engram 使用 O(1) 复杂度的哈希查表,表的大小不会影响检索速度。这意味着 DeepSeek Engram 可以存储整部百科全书的事实知识,而不会对推理延迟产生任何影响。
原则上可以。DeepSeek Engram 被设计为在输出 logit 层面通过线性插值集成的模块化组件。Engram 模块可以附加到任何自回归语言模型上,但要达到最佳性能需要微调门控系数 λ,让模型学会何时依赖 Engram 记忆、何时依赖神经计算。

知识小测验

看看你掌握了多少核心知识点?

QUESTION 1 / 3Score: 0

Engram 架构主要解决什么问题?