← 回總覽

22.9 倍加速!FlashAR:仅用 0.05%数据,让预训练好的自回归图像模型飞起来

📅 2026-05-23 21:58 机器之心 人工智能 2 分鐘 1681 字 評分: 86
FlashAR 自回归图像生成 模型加速 后训练 并行解码
📌 一句话摘要 FlashAR 提出一种轻量级后训练加速框架,通过为预训练自回归图像模型新增垂直预测头和对角线并行解码,仅用 0.05% 原始数据即可实现最高 22.9 倍加速,且生成质量几乎无损。 📝 详细摘要 本文介绍了由浙江大学和阿德莱德大学联合提出的 FlashAR 框架,旨在解决自回归图像生成模型推理速度慢的问题。传统 AR 模型采用光栅扫描顺序,生成一张 512×512 图像需要 1024 步串行解码。FlashAR 的核心洞察是利用图像的 2D 结构,为预训练模型新增一个垂直方向的预测头,与原有的水平预测头并行工作,将解码步数从 H×W 降至 H+W-1。为实现这一目标,Fl

📌 一句话摘要

FlashAR 提出一种轻量级后训练加速框架,通过为预训练自回归图像模型新增垂直预测头和对角线并行解码,仅用 0.05% 原始数据即可实现最高 22.9 倍加速,且生成质量几乎无损。

📝 详细摘要

本文介绍了由浙江大学和阿德莱德大学联合提出的 FlashAR 框架,旨在解决自回归图像生成模型推理速度慢的问题。传统 AR 模型采用光栅扫描顺序,生成一张 512×512 图像需要 1024 步串行解码。FlashAR 的核心洞察是利用图像的 2D 结构,为预训练模型新增一个垂直方向的预测头,与原有的水平预测头并行工作,将解码步数从 H×W 降至 H+W-1。为实现这一目标,FlashAR 设计了三个关键组件:中间层分支(从模型中间层引出垂直预测头,保留更丰富的空间信息)、可学习融合门(自适应融合水平和垂直预测结果)以及两阶段适配训练(先冻结骨干网络训练垂直头,再联合微调)。在 Emu3.5-Image-34B 模型上,仅用 8 万张图片(原始数据的 0.05%),FlashAR 将 512×512 图像生成速度从 130 秒压缩到 5.68 秒,实现 22.9 倍加速,而 GenEval 分数仅下降 0.19 分。在 ImageNet 基准上,FlashAR 也全面超越了现有的后训练加速方法 BlockDiffusion。

💡 主要观点

- FlashAR 通过新增垂直预测头实现对角线并行解码,大幅降低自回归图像生成步数。 传统 AR 模型需要 H×W 步串行生成,FlashAR 为模型增加垂直方向预测能力,使水平和垂直头并行工作,解码步数降至 H+W-1,以 512×512 分辨率为例,从 1024 步降至 63 步。

中间层分支设计是 FlashAR 的关键创新,能更有效地利用预训练模型的二维空间信息。 预训练模型的最终层特征已高度适配水平光栅预测任务,而中间层保留了更丰富的二维空间信息,从中间层引出垂直预测头能更自然地学习新预测方向,且可与原分支并行执行提升吞吐。
FlashAR 仅需 0.05% 原始训练数据即可实现显著加速,且生成质量几乎无损。 在 Emu3.5-34B 模型上,仅用约 8 万张图片后训练,即可实现 22.9 倍加速,GenEval 分数仅下降 0.19 分,部分子项甚至超越原始模型,数据利用效率极高。

💬 文章金句

- FlashAR 的关键洞察在于:图像天然具有 2D 结构,如果我们为模型新增垂直方向的下一个 token 的预测能力,在每个步骤中,水平解码头和垂直解码头并行工作,解码步数从 H×W 骤降至 H+W-1。

  • FlashAR 证明了一个重要观点:通过精心设计的后训练适配,可以在几乎不改变原始模型训练目标的前提下,将自回归模型改造成高度并行的生成器,完整继承预训练模型的强大能力。
  • 用 0.05% 的原始训练数据(80M token,约 8 万张图片),FlashAR 将 512×512 图像生成速度从 130.10 秒压缩到 5.68 秒,实现 22.9 倍加速。

📊 文章信息

AI 初评:86

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2600

标签: FlashAR, 自回归图像生成, 模型加速, 后训练, 并行解码

阅读完整文章

查看原文 → 發佈: 2026-05-23 21:58:00 收錄: 2026-05-24 18:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。