IndexCache 是一种新型稀疏注意力优化技术,通过跨层缓存索引来减少 DeepSeek 风格模型中的冗余计算,在不影响性能的前提下显著提升推理速度。
📝 详细摘要
IndexCache 解决了 DeepSeek 稀疏注意力(DSA)架构中的计算瓶颈问题,即“闪电索引器”(lightning indexer)模块在每一层都会产生二次方复杂度。清华大学和 Z.ai 的研究人员发现,索引器选择的 token 子集在连续层之间保持稳定。通过将层划分为“全量”(主动索引)和“共享”(重用缓存索引),IndexCache 将冗余计算减少了高达 75%。该技术提供了两种部署路径:针对现有模型的免训练贪心算法,以及针对新模型的训练感知蒸馏方法。在 GLM-4.7 和 GLM-5 上的基准测试表明,预填充延迟提升高达 1.82 倍,吞吐量提升 1.48 倍,且对推理准确率的影响微乎其微。
💡 主要观点
- IndexCache 通过利用跨层冗余来优化稀疏注意力。 研究人员发现,DSA 模型中“闪电索引器”选择的 token 在相邻层之间高度稳定,这使得后续层可以重用缓存的索引,而无需重新计算。
💬 文章金句
- IndexCache 并非传统的 KV Cache 压缩或共享技术……它通过跨层重用索引消除了这种冗余,从而减少了计算量,而不仅仅是内存占用。
- 贪心算法可以安全地移除 75% 的索引器,同时匹配原始模型的下游性能。
- 未来的基础模型在架构设计时,很可能会从一开始就考虑到下游的推理约束。
📊 文章信息
AI 评分:88
来源:VentureBeat
作者:Ben Dickson
分类:人工智能
语言:英文
阅读时间:6 分钟
字数:1321
标签: LLM, 稀疏注意力, 推理优化, DeepSeek, GLM