← 回總覽

DeepSeek V4 最大的遗憾

📅 2026-05-03 11:43 Jay 人工智能 2 分鐘 1359 字 評分: 88
DeepSeek Engram 条件记忆 大语言模型 Transformer
📌 一句话摘要 本文深入分析了 DeepSeek 的 Engram 条件记忆模块的技术原理、为何未出现在 V4 中,以及其后续衍生研究的进展与启示。 📝 详细摘要 文章围绕 DeepSeek 联合北大开源的 Engram 条件记忆模块展开。Engram 的核心思想是为 Transformer 添加一个原生的知识查表模块,将「检索静态知识」与「组合推理」两种任务解耦,从而释放深层网络容量用于更复杂的推理。尽管社区普遍预期 Engram 将成为 V4 的架构地基,但 V4 技术报告中并未包含它,成为一大遗憾。文章详细解读了 Engram 的技术细节,包括其哈希查找、门控机制、与 MoE 的互补

📌 一句话摘要

本文深入分析了 DeepSeek 的 Engram 条件记忆模块的技术原理、为何未出现在 V4 中,以及其后续衍生研究的进展与启示。

📝 详细摘要

文章围绕 DeepSeek 联合北大开源的 Engram 条件记忆模块展开。Engram 的核心思想是为 Transformer 添加一个原生的知识查表模块,将「检索静态知识」与「组合推理」两种任务解耦,从而释放深层网络容量用于更复杂的推理。尽管社区普遍预期 Engram 将成为 V4 的架构地基,但 V4 技术报告中并未包含它,成为一大遗憾。文章详细解读了 Engram 的技术细节,包括其哈希查找、门控机制、与 MoE 的互补关系,以及其在知识密集型任务和推理任务上的显著提升。随后,文章介绍了 Engram 发布后三个值得关注的衍生工作:CXL 内存池化方案、无冲突热层实验的证伪结果,以及将 Engram 迁移到视觉模态的 Tiny Engram。这些工作从不同角度验证和拓展了 Engram 的理念。文章最后指出,Engram 的缺席或许意味着其将在 V5 或 V4.1 中登场。

💡 主要观点

- Engram 为 Transformer 引入原生知识查表模块,解耦检索与推理。 通过哈希查找将静态知识(如事实)从深层网络中剥离,使模型无需每层都进行复杂的特征重建,从而释放计算资源用于更高阶的推理任务。

Engram 与 MoE 互补,共同优化模型效率。 MoE 实现计算稀疏化,Engram 实现存储稀疏化。实验表明,将约 20-25% 的稀疏参数分配给 Engram 可达到最优 loss,在知识、推理、代码、数学等任务上均有显著提升。
Engram 的缺席是 DeepSeek V4 的最大遗憾,但其理念已催生多项衍生研究。 尽管 V4 未采用 Engram,但后续的 CXL 内存池化、无冲突哈希证伪、以及视觉模态迁移等工作,从工程和算法层面验证并拓展了其价值,为下一代模型奠定了基础。

💬 文章金句

- Engram 是给 Transformer 加的一个原生知识查表模块。能查的别算,先查一下。

  • Engram 不是新增了一块记忆,它还变相把网络加深了。
  • 我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

📊 文章信息

AI 初评:88

来源:量子位

作者:Jay

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3186

标签: DeepSeek, Engram, 条件记忆, 大语言模型, Transformer

阅读完整文章

查看原文 → 發佈: 2026-05-03 11:43:37 收錄: 2026-05-03 14:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。