← 回總覽

IndexCache,一种新型稀疏注意力优化器,可使长上下文 AI 模型推理速度提升 1.82 倍

📅 2026-03-28 01:59 Ben Dickson 人工智能 1 分鐘 1159 字 評分: 88
LLM 稀疏注意力 推理优化 DeepSeek GLM
📌 一句话摘要 IndexCache 是一种新型稀疏注意力优化技术,通过跨层缓存索引来减少 DeepSeek 风格模型中的冗余计算,在不影响性能的前提下显著提升推理速度。 📝 详细摘要 IndexCache 解决了 DeepSeek 稀疏注意力(DSA)架构中的计算瓶颈问题,即“闪电索引器”(lightning indexer)模块在每一层都会产生二次方复杂度。清华大学和 Z.ai 的研究人员发现,索引器选择的 token 子集在连续层之间保持稳定。通过将层划分为“全量”(主动索引)和“共享”(重用缓存索引),IndexCache 将冗余计算减少了高达 75%。该技术提供了两种部署路径:针

📌 一句话摘要

IndexCache 是一种新型稀疏注意力优化技术,通过跨层缓存索引来减少 DeepSeek 风格模型中的冗余计算,在不影响性能的前提下显著提升推理速度。

📝 详细摘要

IndexCache 解决了 DeepSeek 稀疏注意力(DSA)架构中的计算瓶颈问题,即“闪电索引器”(lightning indexer)模块在每一层都会产生二次方复杂度。清华大学和 Z.ai 的研究人员发现,索引器选择的 token 子集在连续层之间保持稳定。通过将层划分为“全量”(主动索引)和“共享”(重用缓存索引),IndexCache 将冗余计算减少了高达 75%。该技术提供了两种部署路径:针对现有模型的免训练贪心算法,以及针对新模型的训练感知蒸馏方法。在 GLM-4.7 和 GLM-5 上的基准测试表明,预填充延迟提升高达 1.82 倍,吞吐量提升 1.48 倍,且对推理准确率的影响微乎其微。

💡 主要观点

- IndexCache 通过利用跨层冗余来优化稀疏注意力。 研究人员发现,DSA 模型中“闪电索引器”选择的 token 在相邻层之间高度稳定,这使得后续层可以重用缓存的索引,而无需重新计算。

在不损失质量的情况下实现了显著的推理加速。 通过移除 75% 的索引器,该技术在保持 AIME 2025 等复杂推理基准测试性能的同时,实现了高达 1.82 倍的预填充延迟提升和 1.48 倍的吞吐量提升。
针对不同开发阶段提供灵活的部署选项。 该技术支持针对现成模型的免训练贪心层选择算法,以及针对预训练的训练感知蒸馏方法,使其能够适应各种生产环境。

💬 文章金句

- IndexCache 并非传统的 KV Cache 压缩或共享技术……它通过跨层重用索引消除了这种冗余,从而减少了计算量,而不仅仅是内存占用。

  • 贪心算法可以安全地移除 75% 的索引器,同时匹配原始模型的下游性能。
  • 未来的基础模型在架构设计时,很可能会从一开始就考虑到下游的推理约束。

📊 文章信息

AI 评分:88

来源:VentureBeat

作者:Ben Dickson

分类:人工智能

语言:英文

阅读时间:6 分钟

字数:1321

标签: LLM, 稀疏注意力, 推理优化, DeepSeek, GLM

阅读完整文章

查看原文 → 發佈: 2026-03-28 01:59:23 收錄: 2026-03-28 06:00:40

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。