首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA

📌 一句话摘要

腾讯混元提出 Stem 稀疏注意力算法，通过 Token 位置衰减和输出感知度量两大创新，在仅用 25% 算力下逼近稠密注意力精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，被 ICML 2026 收录。

📝 详细摘要

本文详细介绍了腾讯混元团队提出的 Stem 稀疏注意力算法及其配套的 HPC 算子优化方案。文章首先指出长文本推理中预填充阶段的性能瓶颈源于 Transformer 自注意力的平方级复杂度，并分析了现有稀疏注意力方案在算法（预算分配一刀切、忽略 Value 信息量）和算子（跳块开销大）层面的不足。Stem 算法的核心创新包括：Token 位置衰减（TPD），根据 token 在因果信息流中的重要性，为初始 token 分配更多稀疏预算；输出感知度量（OAM），结合注意力分数与 Value 向量幅值来更精准地筛选关键 token。在算子层面，HPC-Stem 通过数学简化将评估选块流程加速数十倍，HPC-BSA 针对 Hopper 架构设计，实现了近零开销的块级跳过。文章提供了在腾讯混元 Hy3 preview 模型上的端到端测试数据，显示在 128K 上下文下首字延迟降低 3.7 倍，且模型精度保持良好。论文已被 ICML 2026 接收，相关代码已开源。

💡 主要观点

- Stem 算法通过 TPD 和 OAM 两大创新，在 25% 算力下实现近无损精度。 TPD 根据 token 在因果信息流中的重要性动态分配稀疏预算，优先保留初始 token；OAM 结合注意力分数与 Value 向量幅值，更精准地筛选信息贡献大的 token，而非仅依赖分数。

HPC 算子将稀疏注意力的理论加速比转化为实际硬件性能。 HPC-Stem 通过数学简化将评估选块流程加速数十倍；HPC-BSA 针对 Hopper 架构设计，将跳块判断前置，实现近零开销的块级跳过，使延迟与计算密度呈线性关系。

全栈方案在 128K 上下文下实现首字延迟降低 3.7 倍。 将 Stem 算法与 HPC 算子集成到腾讯混元 Hy3 preview 模型的 vLLM 推理框架中，端到端测试显示，在保持模型精度的前提下，首字延迟显著降低。

💬 文章金句

- 算法决定'省哪些计算'，算子决定'省下的计算能快多少'——两者协同，构成从理论到部署的完整闭环。

Stem 的名字来源于'树干'的隐喻——在因果注意力架构中，初始位置的 token 如同一棵树的主干，支撑着所有后续信息的传递。

📊 文章信息

AI 初评：90

来源：腾讯混元

作者：腾讯混元

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4031

标签： LLM, AI 推理, 稀疏注意力, 模型加速, 长上下文

阅读完整文章

首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA

🤖 問 AI