DeepSeek Engram

条件记忆——大语言模型稀疏性的新维度

2026年1月,DeepSeek 发布了名为 Engram 的突破性技术。 通过引入条件记忆(Conditional Memory)O(1) 复杂度的静态查找, Engram 为大语言模型开辟了全新的稀疏性维度,与传统 MoE 相互补充,为下一代稀疏模型奠定了全新的建模范式。

核心洞察
与当前主流的混合专家模型(MoE)通过条件计算来扩展模型容量不同, Engram 通过 O(1) 复杂度的静态查找 来实现知识检索。 这是一种全新的稀疏性维度,将静态知识存储动态计算分离。
混合专家模型(MoE)的工作原理
当前,大语言模型扩展容量的主流方法是混合专家模型(Mixture-of-Experts, MoE)
  • 模型包含多个"专家"网络(通常是 FFN 层)
  • 每次推理时,路由器(Router)只激活其中一小部分专家
  • 通过这种条件计算机制,模型可以在不成比例增加计算量的情况下大幅扩展参数规模

MoE 已成为当前前沿模型的事实标准,包括 DeepSeek-V3、GPT-4 等都采用了这一架构。
MoE 的核心问题
然而,Transformer 架构缺乏原生的知识查找原语。这意味着:
  • 知识检索依赖计算模拟:当模型需要回忆"亚历山大大帝能驯服的马叫什么名字"这样的事实时,它必须通过神经网络计算来"重建"这个知识
  • 静态模式重建效率低下:大量的网络容量被用于存储和重建静态的、不变的知识模式
  • 计算资源浪费:本可用于复杂推理的计算资源被消耗在简单的知识检索上
Engram 的核心理念
Engram 的核心洞察是:将静态知识存储与动态计算分离

双轨并行:
  • MoE 负责条件计算:处理需要推理、生成的复杂任务
  • Engram 负责条件记忆:通过 O(1) 查找直接检索静态知识
这两种稀疏性机制相互补充,形成了更高效的模型架构。
1
N-gram 哈希
将连续的 2-gram 或 3-gram token 序列通过哈希函数映射到唯一索引。 这是 Engram 实现 O(1) 查找的关键基础。
2
嵌入查找
使用该索引在预训练的嵌入表中进行 O(1) 时间复杂度的查找。 这种确定性寻址使得查找操作可以与神经网络计算并行执行。
3
多头门控融合
通过 Scaled Dot Product 计算门控权重, 将查找到的静态记忆与动态隐藏状态融合。模型学会自动决定何时依赖记忆、何时依赖计算。
4
残差连接
融合结果通过卷积层和残差连接整合回主干网络。保证了 Engram 模块的可插拔性和训练稳定性。
Engram 架构图
图1:Engram 架构示意图。左侧展示 Engram 模块在 Transformer Block 中的位置,右侧展示 Engram 内部的 N-gram 嵌入查找机制。
门控机制可视化
图2:Engram 门控机制的可视化。红色越深表示该 token 位置从 Engram 记忆中获取的信息越多。 可以看到,专有名词(如 "Alexander the Great"、"Milky Way"、"Diana, Princess of Wales"、"伤寒杂病论")的 Engram 激活程度明显更高。
门控机制的智能选择
从可视化结果可以看出,Engram 学会了自动识别需要知识检索的位置
  • 通用词汇(如 "the", "could", "I am"):Engram 激活较低,主要依赖神经计算
  • 专有名词和知识密集型词汇(如 "Alexander the Great", "Bucephalus", "医圣"):Engram 激活较高,直接从记忆中检索
系统实现
图3:Engram 的系统实现。(a) 训练时通过 All2All 通信在多 GPU 间分布式存储嵌入表; (b) 推理时将 Engram 嵌入表卸载到主机内存,通过确定性寻址实现运行时预取。
基础设施感知的效率设计
Engram 的一个关键创新在于其基础设施感知的效率设计
  • 训练阶段:嵌入表分布在多个 GPU 上,通过 All2All 通信同步
  • 推理阶段:由于 N-gram 索引可以在模型接收输入时立即确定(不需要等待前面层的计算结果), Engram 嵌入表可以完全卸载到主机内存(CPU RAM),通过预取机制实现几乎零开销的访问

这意味着:即使 Engram 嵌入表达到数十亿参数规模, 也不会显著增加 GPU 显存占用或推理延迟。
发现 U 形缩放定律
研究团队通过系统实验,发现了稀疏性分配的 U 形缩放定律
  • 在固定总参数量下,存在一个最优的 MoE 与 Engram 参数分配比例
  • 过多或过少的 Engram 参数都会导致性能下降
  • 这一发现为如何在神经计算与静态记忆之间分配容量提供了理论指导
全面超越 MoE 基线
在严格的等参数量(iso-parameter)等计算量(iso-FLOPs)约束下, Engram-27B 模型全面超越了 MoE-27B 基线:
评测领域 基准测试 提升幅度
知识检索 MMLU +3.4
知识检索 CMMLU +4.0
通用推理 BBH +5.0
通用推理 ARC-Challenge +3.7
代码生成 HumanEval +3.0
数学推理 MATH +2.4
令人惊讶的是:虽然 Engram 的设计初衷是辅助知识检索,但它在通用推理、代码和数学领域的提升甚至更大
机制分析揭示深层原因
Engram 将主干网络的早期层从静态模式重建任务中解放出来,有效地为复杂推理保留了网络深度。
换句话说:
  • 传统模型的早期层需要花费大量容量来"记住"静态知识
  • Engram 接管了这部分工作后,早期层可以专注于语义理解
  • 这相当于为推理任务有效地加深了网络
长上下文能力大幅提升
通过将局部依赖委托给 Engram 查找,注意力机制的容量被释放出来用于全局上下文建模:

MultiQuery NIAH(多查询大海捞针):84.2 → 97.0(提升 12.8 个百分点)

这表明 Engram 不仅改善了知识检索,还显著增强了模型处理长文档的能力。
+5.0
BBH 推理提升
+4.0
CMMLU 知识提升
+12.8
长上下文提升
O(1)
查找复杂度
技术积累与验证
Engram 论文的发布时机非常值得关注。DeepSeek 通常会在新架构经过充分验证后才将其应用于旗舰模型:
  • DeepSeek-V2(2024年5月):引入 MLA(Multi-head Latent Attention)和 DeepSeekMoE
  • DeepSeek-V3(2024年12月):进一步优化 MoE 架构,引入无损负载均衡等技术
  • Engram 论文(2026年1月):展示了条件记忆作为新稀疏性轴的可行性
DeepSeek-V4 可能的技术方向
基于 Engram 论文展示的结果,我们可以合理推测 DeepSeek-V4 可能的技术方向:

1️⃣ MoE + Engram 双稀疏架构
  • 结合条件计算(MoE)与条件记忆(Engram)
  • 遵循 U 形缩放定律优化参数分配
2️⃣ 更高效的推理
  • Engram 的确定性寻址允许嵌入表卸载到主机内存
  • 这可能使 DeepSeek-V4 在同等硬件上运行更大规模的模型
3️⃣ 更强的知识密集型任务表现
  • 专业领域知识(医学、法律、科学)的检索能力可能大幅提升
  • 事实性和准确性可能显著改善
4️⃣ 更强的推理能力
  • 如论文所示,Engram 释放的网络容量可用于更复杂的推理
  • 数学、代码、逻辑推理等任务可能获得超预期的提升
5️⃣ 超长上下文支持
  • Engram 释放的注意力容量可用于全局上下文
  • 128K 甚至更长的上下文处理能力可能更加实用
行业影响
Engram 的发布标志着大语言模型架构设计进入了一个新阶段。它证明了:
稀疏性不仅仅是"计算"的稀疏,还可以是"记忆"的稀疏。
这一范式转换可能催生更多围绕条件记忆的研究,并可能影响整个行业对下一代 LLM 架构的设计思路。
总结:架构革新
DeepSeek Engram 代表了大语言模型架构的一次重要创新:
维度 传统 MoE Engram + MoE
稀疏性类型 仅条件计算 条件计算 + 条件记忆
知识检索 通过计算模拟 O(1) 直接查找
早期层负担 静态模式重建 释放给推理
推理效率 GPU 显存密集 支持主机内存卸载
长上下文 注意力容量受限 释放注意力容量
展望未来
Engram 技术的成熟和公开,强烈暗示了 DeepSeek 在下一代旗舰模型中整合这一技术的可能性。 如果 DeepSeek-V4 确实采用了 Engram 架构,我们可能会看到:
  • 🎯 知识检索准确率的质的飞跃
  • 🧠 推理能力的超预期提升
  • 更高效的推理部署
  • 📚 更强大的长上下文处理能力

让我们拭目以待 DeepSeek 的下一步动作。🚀

基于 DeepSeek 发布的 Engram 研究论文 | GitHub 项目 | 论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

Kcores LLM Arena Logo