IndexCache，一种新型稀疏注意力优化器，可使长上下文 AI 模型推理速度提升 1.82 倍

📌 一句话摘要

IndexCache 是一种新型稀疏注意力优化技术，通过跨层缓存索引来减少 DeepSeek 风格模型中的冗余计算，在不影响性能的前提下显著提升推理速度。

📝 详细摘要

IndexCache 解决了 DeepSeek 稀疏注意力（DSA）架构中的计算瓶颈问题，即“闪电索引器”（lightning indexer）模块在每一层都会产生二次方复杂度。清华大学和 Z.ai 的研究人员发现，索引器选择的 token 子集在连续层之间保持稳定。通过将层划分为“全量”（主动索引）和“共享”（重用缓存索引），IndexCache 将冗余计算减少了高达 75%。该技术提供了两种部署路径：针对现有模型的免训练贪心算法，以及针对新模型的训练感知蒸馏方法。在 GLM-4.7 和 GLM-5 上的基准测试表明，预填充延迟提升高达 1.82 倍，吞吐量提升 1.48 倍，且对推理准确率的影响微乎其微。

💡 主要观点

- IndexCache 通过利用跨层冗余来优化稀疏注意力。 研究人员发现，DSA 模型中“闪电索引器”选择的 token 在相邻层之间高度稳定，这使得后续层可以重用缓存的索引，而无需重新计算。

在不损失质量的情况下实现了显著的推理加速。 通过移除 75% 的索引器，该技术在保持 AIME 2025 等复杂推理基准测试性能的同时，实现了高达 1.82 倍的预填充延迟提升和 1.48 倍的吞吐量提升。

针对不同开发阶段提供灵活的部署选项。 该技术支持针对现成模型的免训练贪心层选择算法，以及针对预训练的训练感知蒸馏方法，使其能够适应各种生产环境。

💬 文章金句

- IndexCache 并非传统的 KV Cache 压缩或共享技术……它通过跨层重用索引消除了这种冗余，从而减少了计算量，而不仅仅是内存占用。

贪心算法可以安全地移除 75% 的索引器，同时匹配原始模型的下游性能。
未来的基础模型在架构设计时，很可能会从一开始就考虑到下游的推理约束。

📊 文章信息

AI 评分：88

来源：VentureBeat

作者：Ben Dickson

分类：人工智能

语言：英文

阅读时间：6 分钟

字数：1321

标签： LLM, 稀疏注意力, 推理优化, DeepSeek, GLM

阅读完整文章

IndexCache，一种新型稀疏注意力优化器，可使长上下文 AI 模型推理速度提升 1.82 倍

🤖 問 AI