← 回總覽

2 张 A800,让大模型跑 1 亿上下文!陈天桥旗下团队联合北大狠作:直接把记忆写进注意力机制!记忆和推理完美解耦了!网友:优雅!RAG 真完了

📅 2026-03-20 12:34 51CTO技术栈 人工智能 1 分鐘 1248 字 評分: 85
MSA 长上下文 注意力机制 RAG 大模型架构
📌 一句话摘要 陈天桥旗下 Evermind 团队联合北大推出 MSA 架构,通过将检索集成进注意力机制,实现 2 张 A800 驱动 1 亿 token 超长上下文推理。 📝 详细摘要 本文详细介绍了由 Evermind 团队与北京大学联合发表的突破性研究:存储稀疏注意力(MSA)。该技术旨在打破大语言模型在长上下文处理上的“百万代币”瓶颈,通过将记忆检索直接融入注意力机制,实现了记忆容量与推理能力的完美解耦。MSA 核心包含潜空间路由、独立文档位置编码、记忆交织及内存并行四大技术,将计算复杂度降至线性级别。实验证明,仅 4B 参数的 MSA 模型在长文本任务中表现优于 235B 的 R

📌 一句话摘要

陈天桥旗下 Evermind 团队联合北大推出 MSA 架构,通过将检索集成进注意力机制,实现 2 张 A800 驱动 1 亿 token 超长上下文推理。

📝 详细摘要

本文详细介绍了由 Evermind 团队与北京大学联合发表的突破性研究:存储稀疏注意力(MSA)。该技术旨在打破大语言模型在长上下文处理上的“百万代币”瓶颈,通过将记忆检索直接融入注意力机制,实现了记忆容量与推理能力的完美解耦。MSA 核心包含潜空间路由、独立文档位置编码、记忆交织及内存并行四大技术,将计算复杂度降至线性级别。实验证明,仅 4B 参数的 MSA 模型在长文本任务中表现优于 235B 的 RAG 系统,且硬件门槛极低,仅需两张 A800 显卡即可支持一亿 Token 的实时推理,为构建具备“一生记忆”的 AI 智能体提供了新路径。

💡 主要观点

- MSA 通过潜空间路由实现精准的稀疏检索机制。 引入专门的路由投影器在隐藏状态中计算相似度,像索引目录一样瞬间定位相关文档块,将注意力机制的复杂度从平方级降至线性级别。

采用独立文档位置编码解决了长序列的位置偏移难题。 为每个文档分配独立的起始位置 ID,实现位置脱钩,使模型在短文本训练下也能无损外推至亿级长度,解决了训练与推理长度不匹配的沉疴。
记忆交织机制模拟人类联想思考实现多步推理。 模型可先检索部分记忆并产生中间结论,再发起针对性检索,这种“检索-思考-再检索”的闭环使其能处理分布在不同文档中的碎片化信息。
MSA 实现了模型记忆容量与推理能力的有效解耦。 通过内存并行技术将海量 KV 缓存分布式存储,使小参数模型也能拥有巨大的内生记忆力,且在超长上下文下性能损耗保持在 9% 以内。

💬 文章金句

- MSA 的底层逻辑:把记忆直接写进注意力。

  • 仅有 4B 参数的 MSA,在实际表现中竟然打赢了 235B 参数的巨型 RAG 系统。
  • MSA 实现了将模型的记忆容量与推理能力的解耦。
  • 把检索直接做进 Attention 机制里,比 RAG 那种笨重的外挂方案优雅太多了。
  • 仅需 2 张 NVIDIA A800 GPU,就能驱动一亿 Token 的实时推理。

📊 文章信息

AI 评分:85

来源:51CTO技术栈

作者:51CTO技术栈

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3008

标签: MSA, 长上下文, 注意力机制, RAG, 大模型架构

阅读完整文章

查看原文 → 發佈: 2026-03-20 12:34:00 收錄: 2026-03-20 18:00:38

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。