阿里与南大联合提出 RTPurbo,通过轻量级训练(百步、1M tokens)将 Full Attention 模型高效转换为动态稀疏模型,在长文本推理中实现近 9 倍 Prefill 加速与 2 倍 Decode 加速,且精度近乎无损。
📝 详细摘要
本文介绍了阿里巴巴与南京大学联合提出的 RTPurbo 方法,旨在以最小代价将 Full Attention 大语言模型转换为高效的稀疏注意力模型。核心洞察在于,Full Attention 模型在训练后已具备原生稀疏性,表现为大部分 Attention Head 仅关注局部信息,仅少数召回头负责长程检索。RTPurbo 通过离线 Head 校准识别召回头,利用 RoPE 低频分量构建低维检索空间,并采用动态 Top-p 策略根据查询复杂度自适应选取关键 Token。该方法仅需约 600 步、1M Label Tokens 的轻量级训练(低维投影对齐 + 端到端自蒸馏),即可在 Qwen3-Coder-30B-A3B 等模型上实现近乎无损的精度。在 LongBench、RULER 等基准测试中,RTPurbo 在 32K-512K 上下文长度下均保持高准确率,Prefill 阶段加速比达 9.36 倍,Decode 阶段达 2.01 倍,稀疏度超过 97%。文章还介绍了针对 Top-p 解码的 Kernel 优化,通过直方图免排序和带宽优化,将稀疏计算收益最大化。
💡 主要观点
- Full Attention 模型训练后已具备原生稀疏性,大部分 Head 仅关注局部信息。 研究表明,Full Attention 模型中绝大多数 Attention Head 主要处理局部上下文,仅约 15% 的召回头承担长程检索任务,这为稀疏化提供了天然先验。
💬 文章金句
- 能否以最小的适配代价(Minimal Surgery),将 Full Attention 模型转换为高效的稀疏模型,同时严格保留其原始能力?
- 高昂的原生稀疏预训练并非通往高效长上下文推理的唯一路径。
- 通过轻量级的稀疏化适配,Full Attention 模型完全能够胜任并展现出卓越的稀疏执行能力。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5875
标签: 稀疏注意力, 长上下文推理, 模型加速, RTPurbo, 阿里巴巴