腾讯混元提出 Stem 稀疏注意力算法,通过 Token 位置衰减和输出感知度量两大创新,在仅用 25% 算力下逼近稠密注意力精度,配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍,被 ICML 2026 收录。
📝 详细摘要
本文详细介绍了腾讯混元团队提出的 Stem 稀疏注意力算法及其配套的 HPC 算子优化方案。文章首先指出长文本推理中预填充阶段的性能瓶颈源于 Transformer 自注意力的平方级复杂度,并分析了现有稀疏注意力方案在算法(预算分配一刀切、忽略 Value 信息量)和算子(跳块开销大)层面的不足。Stem 算法的核心创新包括:Token 位置衰减(TPD),根据 token 在因果信息流中的重要性,为初始 token 分配更多稀疏预算;输出感知度量(OAM),结合注意力分数与 Value 向量幅值来更精准地筛选关键 token。在算子层面,HPC-Stem 通过数学简化将评估选块流程加速数十倍,HPC-BSA 针对 Hopper 架构设计,实现了近零开销的块级跳过。文章提供了在腾讯混元 Hy3 preview 模型上的端到端测试数据,显示在 128K 上下文下首字延迟降低 3.7 倍,且模型精度保持良好。论文已被 ICML 2026 接收,相关代码已开源。
💡 主要观点
- Stem 算法通过 TPD 和 OAM 两大创新,在 25% 算力下实现近无损精度。 TPD 根据 token 在因果信息流中的重要性动态分配稀疏预算,优先保留初始 token;OAM 结合注意力分数与 Value 向量幅值,更精准地筛选信息贡献大的 token,而非仅依赖分数。
💬 文章金句
- 算法决定'省哪些计算',算子决定'省下的计算能快多少'——两者协同,构成从理论到部署的完整闭环。
- Stem 的名字来源于'树干'的隐喻——在因果注意力架构中,初始位置的 token 如同一棵树的主干,支撑着所有后续信息的传递。
📊 文章信息
AI 初评:90
来源:腾讯混元
作者:腾讯混元
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4031
标签: LLM, AI 推理, 稀疏注意力, 模型加速, 长上下文