2 张 A800，让大模型跑 1 亿上下文！陈天桥旗下团队联合北大狠作：直接把记忆写进注意力机制！记忆和推理完美解耦了！网友：优雅！RAG 真完了

📌 一句话摘要

陈天桥旗下 Evermind 团队联合北大推出 MSA 架构，通过将检索集成进注意力机制，实现 2 张 A800 驱动 1 亿 token 超长上下文推理。

📝 详细摘要

本文详细介绍了由 Evermind 团队与北京大学联合发表的突破性研究：存储稀疏注意力（MSA）。该技术旨在打破大语言模型在长上下文处理上的“百万代币”瓶颈，通过将记忆检索直接融入注意力机制，实现了记忆容量与推理能力的完美解耦。MSA 核心包含潜空间路由、独立文档位置编码、记忆交织及内存并行四大技术，将计算复杂度降至线性级别。实验证明，仅 4B 参数的 MSA 模型在长文本任务中表现优于 235B 的 RAG 系统，且硬件门槛极低，仅需两张 A800 显卡即可支持一亿 Token 的实时推理，为构建具备“一生记忆”的 AI 智能体提供了新路径。

💡 主要观点

- MSA 通过潜空间路由实现精准的稀疏检索机制。 引入专门的路由投影器在隐藏状态中计算相似度，像索引目录一样瞬间定位相关文档块，将注意力机制的复杂度从平方级降至线性级别。

采用独立文档位置编码解决了长序列的位置偏移难题。 为每个文档分配独立的起始位置 ID，实现位置脱钩，使模型在短文本训练下也能无损外推至亿级长度，解决了训练与推理长度不匹配的沉疴。

记忆交织机制模拟人类联想思考实现多步推理。 模型可先检索部分记忆并产生中间结论，再发起针对性检索，这种“检索-思考-再检索”的闭环使其能处理分布在不同文档中的碎片化信息。

MSA 实现了模型记忆容量与推理能力的有效解耦。 通过内存并行技术将海量 KV 缓存分布式存储，使小参数模型也能拥有巨大的内生记忆力，且在超长上下文下性能损耗保持在 9% 以内。

💬 文章金句

- MSA 的底层逻辑：把记忆直接写进注意力。

仅有 4B 参数的 MSA，在实际表现中竟然打赢了 235B 参数的巨型 RAG 系统。
MSA 实现了将模型的记忆容量与推理能力的解耦。
把检索直接做进 Attention 机制里，比 RAG 那种笨重的外挂方案优雅太多了。
仅需 2 张 NVIDIA A800 GPU，就能驱动一亿 Token 的实时推理。

📊 文章信息

AI 评分：85

来源：51CTO技术栈

作者：51CTO技术栈

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3008

标签： MSA, 长上下文, 注意力机制, RAG, 大模型架构

阅读完整文章

2 张 A800，让大模型跑 1 亿上下文！陈天桥旗下团队联合北大狠作：直接把记忆写进注意力机制！记忆和推理完美解耦了！网友：优雅！RAG 真完了

🤖 問 AI