← 回總覽

阿里 RTPurboV2:原生 Transformer 再次崛起,百步训练实现 10 倍稀疏注意

📅 2026-06-08 10:07 机器之心 人工智能 2 分鐘 1683 字 評分: 88
LLM Attention 机制 模型推理优化 稀疏注意力 AI 工程实践
📌 一句话摘要 阿里 RTP 团队提出 RTPurboV2,通过低秩投影、自适应聚类与动态 top-p 策略,在仅需 600 步微调下,对原生 Transformer 的 Full Attention 实现 16-32 倍计算压缩,Prefill 最高加速 9.36 倍且精度几乎无损。 📝 详细摘要 文章介绍了阿里 RTP 团队推出的第二代 Attention 压缩技术 RTPurboV2。其核心洞察是:Full Attention 模型在预训练中已自发形成高度稀疏的注意力结构,无需强加稀疏性,只需「释放」它。技术方案基于四个关键发现:85% 的注意力头天然适配滑动窗口(SWA);长程检索

📌 一句话摘要

阿里 RTP 团队提出 RTPurboV2,通过低秩投影、自适应聚类与动态 top-p 策略,在仅需 600 步微调下,对原生 Transformer 的 Full Attention 实现 16-32 倍计算压缩,Prefill 最高加速 9.36 倍且精度几乎无损。

📝 详细摘要

文章介绍了阿里 RTP 团队推出的第二代 Attention 压缩技术 RTPurboV2。其核心洞察是:Full Attention 模型在预训练中已自发形成高度稀疏的注意力结构,无需强加稀疏性,只需「释放」它。技术方案基于四个关键发现:85% 的注意力头天然适配滑动窗口(SWA);长程检索由 RoPE 低频分量主导,可通过低秩投影(16 维)高效压缩;低秩投影提纯后的向量在语义空间天然聚拢,可引入自适应聚类实现序列维度压缩;动态 top-p 策略优于固定 top-k,能自适应不同 head 和序列长度的需求。最终架构为:流式头(85%)使用 SWA,召回头(15%)使用低秩投影 + 聚类索引 + 动态 top-p。训练仅需两阶段约 600 步(约 1M label tokens),在 Ruler、LongBenchV2 和 CoT 推理等基准测试中,实现了接近 Full Attention 的精度,同时大幅降低计算开销。文章认为,这证明了原生 Transformer 并未过时,Full Attention 的内生稀疏性可通过极低成本释放。

💡 主要观点

- Full Attention 模型的内生稀疏性可通过极低成本释放。 文章通过实验证明,预训练模型已自发形成高度稀疏的注意力结构(85% 流式头 + 15% 召回头),仅需约 600 步微调即可完成从隐式到显式的转化,无需替换架构。

低秩投影与自适应聚类形成乘法协同效应。 低秩投影(16 维)过滤 RoPE 高频噪声、保留低频语义分量,提纯后的向量使语义相似 token 天然聚拢,为聚类创造理想条件。两者结合,将复杂度从 O(N²) 降至 O(N·K)。
动态 top-p 策略显著优于固定 top-k。 不同 attention head 和序列长度所需的上下文 token 数量差异可达三个数量级,固定 k 值无法适配所有场景。动态 top-p 策略通过保留累积注意力得分达到阈值的 token 集合,实现自适应预算分配。
RTPurboV2 为混合架构团队提供了一条无需替换架构的高效路径。 对于采用 SWA + Full Attention 混合架构的团队(如 MIMO、Gemma 4、GPT-OSS),RTPurboV2 可在不改变架构的前提下,获得接近 SOTA 新方案的压缩效率,Prefill 最高加速 9.36 倍。

💬 文章金句

- Full Attention 模型自身就蕴含着巨大的效率空间,而释放这种内生稀疏性的成本极低。

  • 原生 Transformer,从未过时。Full Attention strikes back.

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3514

标签: LLM, Attention 机制, 模型推理优化, 稀疏注意力, AI 工程实践

阅读完整文章

查看原文 → 發佈: 2026-06-08 10:07:00 收錄: 2026-06-09 00:00:31

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。