北京大学张牧涵团队提出 HISA 稀疏注意力机制,通过分层索引解决长文本下的计算瓶颈,在不损失精度且无需重训的情况下,将 DeepSeek 等模型的索引速度提升 2-4 倍。
📝 详细摘要
本文介绍了北京大学人工智能研究院提出的新型稀疏注意力机制 HISA(分层索引稀疏注意力)。该研究针对当前大模型(如 DeepSeek-V3)在处理超长上下文时,索引器(Indexer)面临的 $O(L^2)$ 复杂度瓶颈进行了优化。HISA 采用「块级粗过滤」和「块内精挑选」的两步走策略,先通过块标签筛选无关内容,再在保留块中进行精细化 token 匹配。实验证明,HISA 在 64K 及以上长度的文本中,比 DeepSeek 现有的 DSA 机制提速最高达 3.75 倍,且在「大海捞针」和 LongBench 测试中表现出与原方法持平的精度。该方案具备「即插即用」特性,无需模型微调或重训,具有极高的工程落地价值。
💡 主要观点
- HISA 解决了长文本稀疏注意力中的索引器计算瓶颈。 传统 DSA 等机制在筛选相关 token 时需进行全量打分,复杂度随长度平方级增长。HISA 通过分层筛选,将复杂度降至线性与块大小相关的水平。
💬 文章金句
- 提出新稀疏注意力机制 HISA(分层索引稀疏注意力),突破 64K 上下文的索引瓶颈,相比 DeepSeek 正在用的 DSA 提速 2-4 倍。
- 不仅做到了大幅提速,而且几乎不丢精度、即插即用不用重新训练。
- HISA 的关键优势在于:复杂度骤降,还能「无缝替换」。
📊 文章信息
AI 评分:92
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2017
标签: DeepSeek, HISA, 稀疏注意力, 长文本优化, 大模型推理