← 回總覽

北大团队改造 DeepSeek 注意力,速度快四倍还不丢精度

📅 2026-04-06 23:25 听雨 人工智能 1 分鐘 1165 字 評分: 92
DeepSeek HISA 稀疏注意力 长文本优化 大模型推理
📌 一句话摘要 北京大学张牧涵团队提出 HISA 稀疏注意力机制,通过分层索引解决长文本下的计算瓶颈,在不损失精度且无需重训的情况下,将 DeepSeek 等模型的索引速度提升 2-4 倍。 📝 详细摘要 本文介绍了北京大学人工智能研究院提出的新型稀疏注意力机制 HISA(分层索引稀疏注意力)。该研究针对当前大模型(如 DeepSeek-V3)在处理超长上下文时,索引器(Indexer)面临的 $O(L^2)$ 复杂度瓶颈进行了优化。HISA 采用「块级粗过滤」和「块内精挑选」的两步走策略,先通过块标签筛选无关内容,再在保留块中进行精细化 token 匹配。实验证明,HISA 在 64K

📌 一句话摘要

北京大学张牧涵团队提出 HISA 稀疏注意力机制,通过分层索引解决长文本下的计算瓶颈,在不损失精度且无需重训的情况下,将 DeepSeek 等模型的索引速度提升 2-4 倍。

📝 详细摘要

本文介绍了北京大学人工智能研究院提出的新型稀疏注意力机制 HISA(分层索引稀疏注意力)。该研究针对当前大模型(如 DeepSeek-V3)在处理超长上下文时,索引器(Indexer)面临的 $O(L^2)$ 复杂度瓶颈进行了优化。HISA 采用「块级粗过滤」和「块内精挑选」的两步走策略,先通过块标签筛选无关内容,再在保留块中进行精细化 token 匹配。实验证明,HISA 在 64K 及以上长度的文本中,比 DeepSeek 现有的 DSA 机制提速最高达 3.75 倍,且在「大海捞针」和 LongBench 测试中表现出与原方法持平的精度。该方案具备「即插即用」特性,无需模型微调或重训,具有极高的工程落地价值。

💡 主要观点

- HISA 解决了长文本稀疏注意力中的索引器计算瓶颈。 传统 DSA 等机制在筛选相关 token 时需进行全量打分,复杂度随长度平方级增长。HISA 通过分层筛选,将复杂度降至线性与块大小相关的水平。

采用「先粗后精」的分层筛选策略实现高效检索。 第一步通过块级特征进行粗过滤,剔除大部分无关块;第二步仅在选中块内进行 token 级精细打分,大幅减少了无效计算量。
具备极强的工程友好性和即插即用特性。 HISA 在逻辑上等价替换原索引模块,无需修改下游注意力计算,无需重新训练模型或调整 KV 缓存结构,可直接应用于 DeepSeek-V3.2 和 GLM-5 等模型。

💬 文章金句

- 提出新稀疏注意力机制 HISA(分层索引稀疏注意力),突破 64K 上下文的索引瓶颈,相比 DeepSeek 正在用的 DSA 提速 2-4 倍。

  • 不仅做到了大幅提速,而且几乎不丢精度、即插即用不用重新训练。
  • HISA 的关键优势在于:复杂度骤降,还能「无缝替换」。

📊 文章信息

AI 评分:92

来源:量子位

作者:听雨

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2017

标签: DeepSeek, HISA, 稀疏注意力, 长文本优化, 大模型推理

阅读完整文章

查看原文 → 發佈: 2026-04-06 23:25:48 收錄: 2026-04-07 02:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。