长文本推理一定要改架构？阿里最新提出 RTPurbo：仅需百步训练，无损达到 97%+ 稀疏度与 9 倍加速

📌 一句话摘要

阿里与南大联合提出 RTPurbo，通过轻量级训练（百步、1M tokens）将 Full Attention 模型高效转换为动态稀疏模型，在长文本推理中实现近 9 倍 Prefill 加速与 2 倍 Decode 加速，且精度近乎无损。

📝 详细摘要

本文介绍了阿里巴巴与南京大学联合提出的 RTPurbo 方法，旨在以最小代价将 Full Attention 大语言模型转换为高效的稀疏注意力模型。核心洞察在于，Full Attention 模型在训练后已具备原生稀疏性，表现为大部分 Attention Head 仅关注局部信息，仅少数召回头负责长程检索。RTPurbo 通过离线 Head 校准识别召回头，利用 RoPE 低频分量构建低维检索空间，并采用动态 Top-p 策略根据查询复杂度自适应选取关键 Token。该方法仅需约 600 步、1M Label Tokens 的轻量级训练（低维投影对齐 + 端到端自蒸馏），即可在 Qwen3-Coder-30B-A3B 等模型上实现近乎无损的精度。在 LongBench、RULER 等基准测试中，RTPurbo 在 32K-512K 上下文长度下均保持高准确率，Prefill 阶段加速比达 9.36 倍，Decode 阶段达 2.01 倍，稀疏度超过 97%。文章还介绍了针对 Top-p 解码的 Kernel 优化，通过直方图免排序和带宽优化，将稀疏计算收益最大化。

💡 主要观点

- Full Attention 模型训练后已具备原生稀疏性，大部分 Head 仅关注局部信息。 研究表明，Full Attention 模型中绝大多数 Attention Head 主要处理局部上下文，仅约 15% 的召回头承担长程检索任务，这为稀疏化提供了天然先验。

RTPurbo 通过轻量级训练（百步、1M tokens）实现模型稀疏化，无需高昂的原生稀疏预训练。 方法包含两阶段训练：低维投影对齐（冻结主干，训练召回头投影参数）和端到端自蒸馏（以原始模型为教师，对齐 Top-10 Logits），训练成本极低。

动态 Top-p 策略根据查询复杂度自适应选取 Token 数量，避免静态预算的鲁棒性问题。 简单任务（如 NIAH）仅需保留数百个 Token，复杂任务（如多跳推理）则自动扩展至数千个，动态跨度达 5 倍，在 512K 上下文下稀疏度仍超 97%。

优化的 Top-p Decode Kernel 通过直方图免排序和带宽优化，将稀疏计算收益最大化。 将打分与阈值筛选融合为单次 Kernel 启动，避免全局排序开销；采用无共享内存的 Warp 结构和向量化加载，实现与 FlashAttention 2 相比的显著加速。

💬 文章金句

- 能否以最小的适配代价(Minimal Surgery)，将 Full Attention 模型转换为高效的稀疏模型，同时严格保留其原始能力？

高昂的原生稀疏预训练并非通往高效长上下文推理的唯一路径。
通过轻量级的稀疏化适配，Full Attention 模型完全能够胜任并展现出卓越的稀疏执行能力。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5875

标签：稀疏注意力, 长上下文推理, 模型加速, RTPurbo, 阿里巴巴

阅读完整文章

长文本推理一定要改架构？阿里最新提出 RTPurbo：仅需百步训练，无损达到 97%+ 稀疏度与 9 倍加速

🤖 問 AI