← 回總覽

长文本推理一定要改架构?阿里最新提出 RTPurbo:仅需百步训练,无损达到 97%+ 稀疏度与 9 倍加速

📅 2026-05-24 00:00 青稞AI 人工智能 2 分鐘 1728 字 評分: 86
稀疏注意力 长上下文推理 模型加速 RTPurbo 阿里巴巴
📌 一句话摘要 阿里与南大联合提出 RTPurbo,通过轻量级训练(百步、1M tokens)将 Full Attention 模型高效转换为动态稀疏模型,在长文本推理中实现近 9 倍 Prefill 加速与 2 倍 Decode 加速,且精度近乎无损。 📝 详细摘要 本文介绍了阿里巴巴与南京大学联合提出的 RTPurbo 方法,旨在以最小代价将 Full Attention 大语言模型转换为高效的稀疏注意力模型。核心洞察在于,Full Attention 模型在训练后已具备原生稀疏性,表现为大部分 Attention Head 仅关注局部信息,仅少数召回头负责长程检索。RTPurbo 通

📌 一句话摘要

阿里与南大联合提出 RTPurbo,通过轻量级训练(百步、1M tokens)将 Full Attention 模型高效转换为动态稀疏模型,在长文本推理中实现近 9 倍 Prefill 加速与 2 倍 Decode 加速,且精度近乎无损。

📝 详细摘要

本文介绍了阿里巴巴与南京大学联合提出的 RTPurbo 方法,旨在以最小代价将 Full Attention 大语言模型转换为高效的稀疏注意力模型。核心洞察在于,Full Attention 模型在训练后已具备原生稀疏性,表现为大部分 Attention Head 仅关注局部信息,仅少数召回头负责长程检索。RTPurbo 通过离线 Head 校准识别召回头,利用 RoPE 低频分量构建低维检索空间,并采用动态 Top-p 策略根据查询复杂度自适应选取关键 Token。该方法仅需约 600 步、1M Label Tokens 的轻量级训练(低维投影对齐 + 端到端自蒸馏),即可在 Qwen3-Coder-30B-A3B 等模型上实现近乎无损的精度。在 LongBench、RULER 等基准测试中,RTPurbo 在 32K-512K 上下文长度下均保持高准确率,Prefill 阶段加速比达 9.36 倍,Decode 阶段达 2.01 倍,稀疏度超过 97%。文章还介绍了针对 Top-p 解码的 Kernel 优化,通过直方图免排序和带宽优化,将稀疏计算收益最大化。

💡 主要观点

- Full Attention 模型训练后已具备原生稀疏性,大部分 Head 仅关注局部信息。 研究表明,Full Attention 模型中绝大多数 Attention Head 主要处理局部上下文,仅约 15% 的召回头承担长程检索任务,这为稀疏化提供了天然先验。

RTPurbo 通过轻量级训练(百步、1M tokens)实现模型稀疏化,无需高昂的原生稀疏预训练。 方法包含两阶段训练:低维投影对齐(冻结主干,训练召回头投影参数)和端到端自蒸馏(以原始模型为教师,对齐 Top-10 Logits),训练成本极低。
动态 Top-p 策略根据查询复杂度自适应选取 Token 数量,避免静态预算的鲁棒性问题。 简单任务(如 NIAH)仅需保留数百个 Token,复杂任务(如多跳推理)则自动扩展至数千个,动态跨度达 5 倍,在 512K 上下文下稀疏度仍超 97%。
优化的 Top-p Decode Kernel 通过直方图免排序和带宽优化,将稀疏计算收益最大化。 将打分与阈值筛选融合为单次 Kernel 启动,避免全局排序开销;采用无共享内存的 Warp 结构和向量化加载,实现与 FlashAttention 2 相比的显著加速。

💬 文章金句

- 能否以最小的适配代价(Minimal Surgery),将 Full Attention 模型转换为高效的稀疏模型,同时严格保留其原始能力?

  • 高昂的原生稀疏预训练并非通往高效长上下文推理的唯一路径。
  • 通过轻量级的稀疏化适配,Full Attention 模型完全能够胜任并展现出卓越的稀疏执行能力。

📊 文章信息

AI 初评:86

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:24 分钟

字数:5875

标签: 稀疏注意力, 长上下文推理, 模型加速, RTPurbo, 阿里巴巴

阅读完整文章

查看原文 → 發佈: 2026-05-24 00:00:00 收錄: 2026-05-24 18:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。