北大团队改造 DeepSeek 注意力，速度快四倍还不丢精度

📌 一句话摘要

北京大学张牧涵团队提出 HISA 稀疏注意力机制，通过分层索引解决长文本下的计算瓶颈，在不损失精度且无需重训的情况下，将 DeepSeek 等模型的索引速度提升 2-4 倍。

📝 详细摘要

本文介绍了北京大学人工智能研究院提出的新型稀疏注意力机制 HISA（分层索引稀疏注意力）。该研究针对当前大模型（如 DeepSeek-V3）在处理超长上下文时，索引器（Indexer）面临的 $O(L^2)$ 复杂度瓶颈进行了优化。HISA 采用「块级粗过滤」和「块内精挑选」的两步走策略，先通过块标签筛选无关内容，再在保留块中进行精细化 token 匹配。实验证明，HISA 在 64K 及以上长度的文本中，比 DeepSeek 现有的 DSA 机制提速最高达 3.75 倍，且在「大海捞针」和 LongBench 测试中表现出与原方法持平的精度。该方案具备「即插即用」特性，无需模型微调或重训，具有极高的工程落地价值。

💡 主要观点

- HISA 解决了长文本稀疏注意力中的索引器计算瓶颈。 传统 DSA 等机制在筛选相关 token 时需进行全量打分，复杂度随长度平方级增长。HISA 通过分层筛选，将复杂度降至线性与块大小相关的水平。

采用「先粗后精」的分层筛选策略实现高效检索。 第一步通过块级特征进行粗过滤，剔除大部分无关块；第二步仅在选中块内进行 token 级精细打分，大幅减少了无效计算量。

具备极强的工程友好性和即插即用特性。 HISA 在逻辑上等价替换原索引模块，无需修改下游注意力计算，无需重新训练模型或调整 KV 缓存结构，可直接应用于 DeepSeek-V3.2 和 GLM-5 等模型。

💬 文章金句

- 提出新稀疏注意力机制 HISA（分层索引稀疏注意力），突破 64K 上下文的索引瓶颈，相比 DeepSeek 正在用的 DSA 提速 2-4 倍。

不仅做到了大幅提速，而且几乎不丢精度、即插即用不用重新训练。
HISA 的关键优势在于：复杂度骤降，还能「无缝替换」。

📊 文章信息

AI 评分：92

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2017

标签： DeepSeek, HISA, 稀疏注意力, 长文本优化, 大模型推理

阅读完整文章

北大团队改造 DeepSeek 注意力，速度快四倍还不丢精度

🤖 問 AI