阿里 RTP 团队提出 RTPurboV2,通过低秩投影、自适应聚类与动态 top-p 策略,在仅需 600 步微调下,对原生 Transformer 的 Full Attention 实现 16-32 倍计算压缩,Prefill 最高加速 9.36 倍且精度几乎无损。
📝 详细摘要
文章介绍了阿里 RTP 团队推出的第二代 Attention 压缩技术 RTPurboV2。其核心洞察是:Full Attention 模型在预训练中已自发形成高度稀疏的注意力结构,无需强加稀疏性,只需「释放」它。技术方案基于四个关键发现:85% 的注意力头天然适配滑动窗口(SWA);长程检索由 RoPE 低频分量主导,可通过低秩投影(16 维)高效压缩;低秩投影提纯后的向量在语义空间天然聚拢,可引入自适应聚类实现序列维度压缩;动态 top-p 策略优于固定 top-k,能自适应不同 head 和序列长度的需求。最终架构为:流式头(85%)使用 SWA,召回头(15%)使用低秩投影 + 聚类索引 + 动态 top-p。训练仅需两阶段约 600 步(约 1M label tokens),在 Ruler、LongBenchV2 和 CoT 推理等基准测试中,实现了接近 Full Attention 的精度,同时大幅降低计算开销。文章认为,这证明了原生 Transformer 并未过时,Full Attention 的内生稀疏性可通过极低成本释放。
💡 主要观点
- Full Attention 模型的内生稀疏性可通过极低成本释放。 文章通过实验证明,预训练模型已自发形成高度稀疏的注意力结构(85% 流式头 + 15% 召回头),仅需约 600 步微调即可完成从隐式到显式的转化,无需替换架构。
💬 文章金句
- Full Attention 模型自身就蕴含着巨大的效率空间,而释放这种内生稀疏性的成本极低。
- 原生 Transformer,从未过时。Full Attention strikes back.
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3514
标签: LLM, Attention 机制, 模型推理优化, 稀疏注意力, AI 工程实践