Engram: LLM 的无损外挂记忆
为什么要把百科全书塞进神经元里? DeepSeek Engram 架构提出了一种基于 N-gram 的查表机制,从根本上将事实记忆与逻辑推理解耦。
数据即记忆
在 DeepSeek Engram 架构中,知识被索引在海量 N-gram 数据库中,而不是通过反向传播"烧"进权重。这使得 Engram 在不增加模型参数的情况下能存储更多的事实信息。
专注推理
有了 DeepSeek Engram 处理事实回忆,模型参数(Transformer)只需专注于语法、逻辑和复杂推理——这些才是神经网络最擅长的任务。
线性插值
在 DeepSeek Engram 中,最终结果是模型预测与记忆查表的加权融合,将 Transformer 的计算推理能力与基于哈希的即时检索结合在一起。
核心痛点:计算 vs 查表
目前的 AI (Transformers) 处理所有信息的方式都是一样的:昂贵的神经计算。DeepSeek Engram 挑战了这一范式,认识到事实回忆和逻辑推理是根本不同的认知任务。
传统 AI 模型
任务:谁是美国第一任总统?
Engram 增强模型
任务:谁是美国第一任总统?
DeepSeek Engram 是如何工作的?
DeepSeek Engram 不使用复杂的神经网络来处理所有内容。相反,Engram 使用 N-gram 来识别常见词组,直接映射到内存地址,完全绕过昂贵的矩阵乘法。
1. 切分词组 (N-grams)
DeepSeek Engram 不仅看单个词,还看多词组合(如 "Capital of")。这些 N-gram 模式蕴含了可以查表而非计算的固定事实知识。
2. 极速哈希 (Hashing)
Engram 通过哈希函数将词组映射到数字 ID。这个过程是确定性的,具有 O(1) 复杂度——完全不需要神经网络计算。
3. 检索与融合
Engram 使用哈希 ID 从表中取出对应的"知识向量"。如果检索到的知识与当前上下文相关,Engram 就将其融入模型的预测中。
核心机制:概率融合 (Logit Mixing)
DeepSeek Engram 的核心公式:P = (1 - λ) * P_model + λ * P_engram Engram 如何决定是"自己想"还是"查字典"?通过一个可学习的门控系数 λ (Lambda),它根据上下文自适应调整。
Transformer 模型
P(Lyon) = 0.25
Engram 内存表
P(Lyon) = 0.00
论文指出:在预测生僻知识(Long-tail)时,DeepSeek Engram 的 λ 会自动变大(依赖记忆);在进行逻辑推理时,λ 会变小(依赖 Transformer 模型)。这种自适应门控正是 Engram 如此强大的原因。
动手试试:Engram 关注哪里?
在下面的输入框打字。红色越深,代表 Engram 模块介入程度越高(即模型认为这是一个“死知识”,直接查表就行)。
即时领域适应 (Domain Adaptation)
传统的 LLM 想要学习新领域的知识(比如最新的法律条文或公司内部文档),通常需要昂贵的增量预训练。这个过程需要 GPU 集群,可能耗费数天甚至数周。
DeepSeek Engram 彻底改变了这一切。你只需要更新硬盘上的 N-gram 索引表,模型就能立刻"查"到新的领域知识,而无需任何神经网络权重更新。这使得 Engram 非常适合知识频繁变化的企业级部署。
> Found in Engram Table.
> Interpolating... Done.
DeepSeek Engram 和 RAG 有什么不同?
很多人会把 DeepSeek Engram 误认为是 RAG (检索增强生成)。虽然它们都为了解决"幻觉",但实现方式天差地别。Engram 在 Token 级别以 O(1) 哈希查表运行,而 RAG 检索的是完整的文档块。
传统 LLM
RAG (检索增强)
Engram
黄金比例:U型曲线的发现
DeepSeek Engram 论文发现了一个关键的"预算分配"定律。如果将模型参数总数固定,神经计算和 Engram 记忆之间存在一个最优分配比例:
- 全给 MoE 专家 (100%):
虽然聪明,但浪费脑力在记忆琐事上。 - 混合分配 (~80% 专家 / 20% 内存):
达到了最佳平衡点(Loss 最低)。这就是 Engram 的威力。
Validation Loss (Lower is Better)
专家视点
学术界与工业界如何评价 Engram 架构?
"Engram 的 U 型曲线发现令人震惊。它不仅验证了'记忆'与'计算'可以解耦,更重要的是给出了具体的黄金比例 (80/20)。这意味着我们长期以来都在浪费算力去训练模型背诵百科全书。"
"对于企业级应用来说,Engram 的'即时领域适应'特性是杀手级的。无需重新预训练,只需更新 N-gram 索引表就能让模型掌握最新的私有数据,这极大地降低了 RAG 系统的复杂度和成本。"
"DeepSeek 这篇论文回归了本质:N-gram 这种看似古老的技术,在现代 Transformer 架构下焕发了新生。O(1) 复杂度的查表机制可能是解决 Long-tail 知识幻觉的最佳方案。"
常见问题 (FAQ)
知识小测验
看看你掌握了多少核心知识点?
