DeepSeek V4 最大的遗憾

📌 一句话摘要

本文深入分析了 DeepSeek 的 Engram 条件记忆模块的技术原理、为何未出现在 V4 中，以及其后续衍生研究的进展与启示。

📝 详细摘要

文章围绕 DeepSeek 联合北大开源的 Engram 条件记忆模块展开。Engram 的核心思想是为 Transformer 添加一个原生的知识查表模块，将「检索静态知识」与「组合推理」两种任务解耦，从而释放深层网络容量用于更复杂的推理。尽管社区普遍预期 Engram 将成为 V4 的架构地基，但 V4 技术报告中并未包含它，成为一大遗憾。文章详细解读了 Engram 的技术细节，包括其哈希查找、门控机制、与 MoE 的互补关系，以及其在知识密集型任务和推理任务上的显著提升。随后，文章介绍了 Engram 发布后三个值得关注的衍生工作：CXL 内存池化方案、无冲突热层实验的证伪结果，以及将 Engram 迁移到视觉模态的 Tiny Engram。这些工作从不同角度验证和拓展了 Engram 的理念。文章最后指出，Engram 的缺席或许意味着其将在 V5 或 V4.1 中登场。

💡 主要观点

- Engram 为 Transformer 引入原生知识查表模块，解耦检索与推理。 通过哈希查找将静态知识（如事实）从深层网络中剥离，使模型无需每层都进行复杂的特征重建，从而释放计算资源用于更高阶的推理任务。

Engram 与 MoE 互补，共同优化模型效率。 MoE 实现计算稀疏化，Engram 实现存储稀疏化。实验表明，将约 20-25% 的稀疏参数分配给 Engram 可达到最优 loss，在知识、推理、代码、数学等任务上均有显著提升。

Engram 的缺席是 DeepSeek V4 的最大遗憾，但其理念已催生多项衍生研究。 尽管 V4 未采用 Engram，但后续的 CXL 内存池化、无冲突哈希证伪、以及视觉模态迁移等工作，从工程和算法层面验证并拓展了其价值，为下一代模型奠定了基础。

💬 文章金句

- Engram 是给 Transformer 加的一个原生知识查表模块。能查的别算，先查一下。

Engram 不是新增了一块记忆，它还变相把网络加深了。
我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

📊 文章信息

AI 初评：88

来源：量子位

作者：Jay

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3186

标签： DeepSeek, Engram, 条件记忆, 大语言模型, Transformer

阅读完整文章

DeepSeek V4 最大的遗憾

🤖 問 AI