← 回總覽

首字延迟降低 3.6 倍,腾讯混元提出 Stem 稀疏注意力算法,长文推理加速新 SOTA

📅 2026-06-05 19:23 腾讯混元 人工智能 2 分鐘 1461 字 評分: 90
LLM AI 推理 稀疏注意力 模型加速 长上下文
📌 一句话摘要 腾讯混元提出 Stem 稀疏注意力算法,通过 Token 位置衰减和输出感知度量两大创新,在仅用 25% 算力下逼近稠密注意力精度,配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍,被 ICML 2026 收录。 📝 详细摘要 本文详细介绍了腾讯混元团队提出的 Stem 稀疏注意力算法及其配套的 HPC 算子优化方案。文章首先指出长文本推理中预填充阶段的性能瓶颈源于 Transformer 自注意力的平方级复杂度,并分析了现有稀疏注意力方案在算法(预算分配一刀切、忽略 Value 信息量)和算子(跳块开销大)层面的不足。Stem 算法的核心创新包括:Toke

📌 一句话摘要

腾讯混元提出 Stem 稀疏注意力算法,通过 Token 位置衰减和输出感知度量两大创新,在仅用 25% 算力下逼近稠密注意力精度,配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍,被 ICML 2026 收录。

📝 详细摘要

本文详细介绍了腾讯混元团队提出的 Stem 稀疏注意力算法及其配套的 HPC 算子优化方案。文章首先指出长文本推理中预填充阶段的性能瓶颈源于 Transformer 自注意力的平方级复杂度,并分析了现有稀疏注意力方案在算法(预算分配一刀切、忽略 Value 信息量)和算子(跳块开销大)层面的不足。Stem 算法的核心创新包括:Token 位置衰减(TPD),根据 token 在因果信息流中的重要性,为初始 token 分配更多稀疏预算;输出感知度量(OAM),结合注意力分数与 Value 向量幅值来更精准地筛选关键 token。在算子层面,HPC-Stem 通过数学简化将评估选块流程加速数十倍,HPC-BSA 针对 Hopper 架构设计,实现了近零开销的块级跳过。文章提供了在腾讯混元 Hy3 preview 模型上的端到端测试数据,显示在 128K 上下文下首字延迟降低 3.7 倍,且模型精度保持良好。论文已被 ICML 2026 接收,相关代码已开源。

💡 主要观点

- Stem 算法通过 TPD 和 OAM 两大创新,在 25% 算力下实现近无损精度。 TPD 根据 token 在因果信息流中的重要性动态分配稀疏预算,优先保留初始 token;OAM 结合注意力分数与 Value 向量幅值,更精准地筛选信息贡献大的 token,而非仅依赖分数。

HPC 算子将稀疏注意力的理论加速比转化为实际硬件性能。 HPC-Stem 通过数学简化将评估选块流程加速数十倍;HPC-BSA 针对 Hopper 架构设计,将跳块判断前置,实现近零开销的块级跳过,使延迟与计算密度呈线性关系。
全栈方案在 128K 上下文下实现首字延迟降低 3.7 倍。 将 Stem 算法与 HPC 算子集成到腾讯混元 Hy3 preview 模型的 vLLM 推理框架中,端到端测试显示,在保持模型精度的前提下,首字延迟显著降低。

💬 文章金句

- 算法决定'省哪些计算',算子决定'省下的计算能快多少'——两者协同,构成从理论到部署的完整闭环。

  • Stem 的名字来源于'树干'的隐喻——在因果注意力架构中,初始位置的 token 如同一棵树的主干,支撑着所有后续信息的传递。

📊 文章信息

AI 初评:90

来源:腾讯混元

作者:腾讯混元

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4031

标签: LLM, AI 推理, 稀疏注意力, 模型加速, 长上下文

阅读完整文章

查看原文 → 發佈: 2026-06-05 19:23:00 收錄: 2026-06-05 22:00:10

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。