本文深入分析了 DeepSeek 的 Engram 条件记忆模块的技术原理、为何未出现在 V4 中,以及其后续衍生研究的进展与启示。
📝 详细摘要
文章围绕 DeepSeek 联合北大开源的 Engram 条件记忆模块展开。Engram 的核心思想是为 Transformer 添加一个原生的知识查表模块,将「检索静态知识」与「组合推理」两种任务解耦,从而释放深层网络容量用于更复杂的推理。尽管社区普遍预期 Engram 将成为 V4 的架构地基,但 V4 技术报告中并未包含它,成为一大遗憾。文章详细解读了 Engram 的技术细节,包括其哈希查找、门控机制、与 MoE 的互补关系,以及其在知识密集型任务和推理任务上的显著提升。随后,文章介绍了 Engram 发布后三个值得关注的衍生工作:CXL 内存池化方案、无冲突热层实验的证伪结果,以及将 Engram 迁移到视觉模态的 Tiny Engram。这些工作从不同角度验证和拓展了 Engram 的理念。文章最后指出,Engram 的缺席或许意味着其将在 V5 或 V4.1 中登场。
💡 主要观点
- Engram 为 Transformer 引入原生知识查表模块,解耦检索与推理。 通过哈希查找将静态知识(如事实)从深层网络中剥离,使模型无需每层都进行复杂的特征重建,从而释放计算资源用于更高阶的推理任务。
💬 文章金句
- Engram 是给 Transformer 加的一个原生知识查表模块。能查的别算,先查一下。
- Engram 不是新增了一块记忆,它还变相把网络加深了。
- 我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。
📊 文章信息
AI 初评:88
来源:量子位
作者:Jay
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3186
标签: DeepSeek, Engram, 条件记忆, 大语言模型, Transformer