阿里 RTPurboV2：原生 Transformer 再次崛起，百步训练实现 10 倍稀疏注意

📌 一句话摘要

阿里 RTP 团队提出 RTPurboV2，通过低秩投影、自适应聚类与动态 top-p 策略，在仅需 600 步微调下，对原生 Transformer 的 Full Attention 实现 16-32 倍计算压缩，Prefill 最高加速 9.36 倍且精度几乎无损。

📝 详细摘要

文章介绍了阿里 RTP 团队推出的第二代 Attention 压缩技术 RTPurboV2。其核心洞察是：Full Attention 模型在预训练中已自发形成高度稀疏的注意力结构，无需强加稀疏性，只需「释放」它。技术方案基于四个关键发现：85% 的注意力头天然适配滑动窗口（SWA）；长程检索由 RoPE 低频分量主导，可通过低秩投影（16 维）高效压缩；低秩投影提纯后的向量在语义空间天然聚拢，可引入自适应聚类实现序列维度压缩；动态 top-p 策略优于固定 top-k，能自适应不同 head 和序列长度的需求。最终架构为：流式头（85%）使用 SWA，召回头（15%）使用低秩投影 + 聚类索引 + 动态 top-p。训练仅需两阶段约 600 步（约 1M label tokens），在 Ruler、LongBenchV2 和 CoT 推理等基准测试中，实现了接近 Full Attention 的精度，同时大幅降低计算开销。文章认为，这证明了原生 Transformer 并未过时，Full Attention 的内生稀疏性可通过极低成本释放。

💡 主要观点

- Full Attention 模型的内生稀疏性可通过极低成本释放。 文章通过实验证明，预训练模型已自发形成高度稀疏的注意力结构（85% 流式头 + 15% 召回头），仅需约 600 步微调即可完成从隐式到显式的转化，无需替换架构。

低秩投影与自适应聚类形成乘法协同效应。 低秩投影（16 维）过滤 RoPE 高频噪声、保留低频语义分量，提纯后的向量使语义相似 token 天然聚拢，为聚类创造理想条件。两者结合，将复杂度从 O(N²) 降至 O(N·K)。

动态 top-p 策略显著优于固定 top-k。 不同 attention head 和序列长度所需的上下文 token 数量差异可达三个数量级，固定 k 值无法适配所有场景。动态 top-p 策略通过保留累积注意力得分达到阈值的 token 集合，实现自适应预算分配。

RTPurboV2 为混合架构团队提供了一条无需替换架构的高效路径。 对于采用 SWA + Full Attention 混合架构的团队（如 MIMO、Gemma 4、GPT-OSS），RTPurboV2 可在不改变架构的前提下，获得接近 SOTA 新方案的压缩效率，Prefill 最高加速 9.36 倍。

💬 文章金句

- Full Attention 模型自身就蕴含着巨大的效率空间，而释放这种内生稀疏性的成本极低。

原生 Transformer，从未过时。Full Attention strikes back.

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3514

标签： LLM, Attention 机制, 模型推理优化, 稀疏注意力, AI 工程实践

阅读完整文章

阿里 RTPurboV2：原生 Transformer 再次崛起，百步训练实现 10 倍稀疏注意

🤖 問 AI