模型也需要「睡觉」？CMU 新论文让 LLM 在梦中「巩固记忆」

📌 一句话摘要

CMU 新论文提出一种类似睡眠的「记忆巩固机制」，让 LLM 在离线阶段递归处理上下文，将关键信息转化为快速权重，以提升长程推理能力。

📝 详细摘要

文章介绍了卡内基梅隆大学与马里兰大学等机构联合发表的一篇论文《Language Models Need Sleep》。论文指出，随着上下文窗口不断增长，KV Cache 臃肿、推理速度变慢、成本上升，且长上下文并不等同于有效的长期记忆。受动物睡眠中记忆巩固的启发，作者提出一种机制：在模型上下文窗口被填满、KV Cache 即将被淘汰之前，模型进入「睡眠」阶段，对累积的上下文执行 N 次离线递归前向传播，通过学习得到的局部规则更新 SSM 模块中的快速权重。巩固完成后，上下文窗口被清空，模型带着更新后的快速权重继续运行。实验在细胞自动机、多跳图检索和数学推理任务（GSM-Infinite）上进行，结果显示，增加「睡眠」时长 N 能显著提升模型在复杂推理任务上的表现，且题目越难，提升越明显。文章也指出了该方法的局限性：训练成本随 N 线性增长，且目前主要停留在方法论探索阶段，尚未在大规模商用模型上充分验证。

💡 主要观点

- 长上下文窗口不等于有效的长期记忆，KV Cache 臃肿带来性能与成本问题。 文章指出，业界追求更长的上下文窗口，但模型并未真正将信息转化为可推理的长期记忆，且 KV Cache 增长导致显存、推理速度和成本问题突出。

「睡眠」机制通过离线递归更新快速权重来巩固记忆。 模型在上下文窗口填满后进入「睡眠」阶段，对累积上下文执行 N 次递归前向传播，通过局部规则更新 SSM 模块的快速权重，然后将上下文窗口清空，继续处理后续输入。

「睡眠」时长 N 的增加能显著提升复杂推理任务的表现。 在 GSM-Infinite 数学推理任务上，增加 N 值对需要更多推理步骤的难题提升明显，而对简单题帮助有限，表明额外计算在深度推理中发挥作用。

该方法目前主要是方法论探索，训练成本随 N 线性增长。 作者坦言，虽然保持了预测阶段的延迟不变，但训练时需要执行 N 次更深的前向和反向传播，导致训练变慢且可能不稳定，尚未在大规模商用模型上充分验证。

💬 文章金句

- 上下文越长，KV Cache 越臃肿，不仅导致显存瞬间被「吃光」，推理速度愈发缓慢，成本也迅速上升。

既然人类连续工作久了会变笨，大模型也一样，既然如此为什么不让 LLM 睡一觉呢？
在睡眠过程中，模型会对累积的上下文执行 N 次离线递归前向传播，并通过一种学习得到的局部规则，更新其状态空间模型（SSM）模块中的快速权重。
睡眠会让动物无法对外部刺激作出反应，这也说明睡眠必须带来足够大的认知收益，才值得付出这一代价。

📊 文章信息

AI 初评：82

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2694

标签： LLM, AI 研究, 长上下文, 记忆机制, 模型训练与推理

阅读完整文章

模型也需要「睡觉」？CMU 新论文让 LLM 在梦中「巩固记忆」

🤖 問 AI