大模型也需要「睡觉」：CMU 和 UMD 提出 Sleep-like Consolidation 机制

📅 2026-05-26 22:50 Berryxia.AI 人工智能 1 分鐘 712 字評分: 82

📌 一句话摘要 CMU 和 UMD 研究团队发现 Transformer 在处理超长任务时注意力机制失效，并提出让模型「睡觉」来巩固记忆的新范式。 📝 详细摘要这是一篇对 arXiv 论文《Language Models Need Sleep》的详细介绍。作者指出，CMU 和 UMD 的研究团队发现 Transformer 在处理超长上下文时，注意力机制会失效。他们提出了一种名为「sleep-like consolidation」的机制，让模型在「睡眠」期间将短期上下文固化到 fast weights 中，然后清空 KV cache，从而在不增加推理延迟的情况下，显著提升长序列任务的推理

📌 一句话摘要

CMU 和 UMD 研究团队发现 Transformer 在处理超长任务时注意力机制失效，并提出让模型「睡觉」来巩固记忆的新范式。

📝 详细摘要

这是一篇对 arXiv 论文《Language Models Need Sleep》的详细介绍。作者指出，CMU 和 UMD 的研究团队发现 Transformer 在处理超长上下文时，注意力机制会失效。他们提出了一种名为「sleep-like consolidation」的机制，让模型在「睡眠」期间将短期上下文固化到 fast weights 中，然后清空 KV cache，从而在不增加推理延迟的情况下，显著提升长序列任务的推理能力。文章认为，这颠覆了当前通过暴力堆叠上下文长度来解决长上下文问题的范式。

📊 文章信息

AI 初评：82

来源：Berryxia.AI(@berryxia)

作者：Berryxia.AI

分类：人工智能

语言：中文

阅读时间：4 分钟

字数：756

标签： Transformer, 长上下文, Sleep-like Consolidation, CMU, UMD

阅读推文

查看原文 → 發佈: 2026-05-26 22:50:39 收錄: 2026-05-27 16:00:38

大模型也需要「睡觉」：CMU 和 UMD 提出 Sleep-like Consolidation 机制

🤖 問 AI