22.9 倍加速！FlashAR：仅用 0.05%数据，让预训练好的自回归图像模型飞起来

📌 一句话摘要

FlashAR 提出一种轻量级后训练加速框架，通过为预训练自回归图像模型新增垂直预测头和对角线并行解码，仅用 0.05% 原始数据即可实现最高 22.9 倍加速，且生成质量几乎无损。

📝 详细摘要

本文介绍了由浙江大学和阿德莱德大学联合提出的 FlashAR 框架，旨在解决自回归图像生成模型推理速度慢的问题。传统 AR 模型采用光栅扫描顺序，生成一张 512×512 图像需要 1024 步串行解码。FlashAR 的核心洞察是利用图像的 2D 结构，为预训练模型新增一个垂直方向的预测头，与原有的水平预测头并行工作，将解码步数从 H×W 降至 H+W-1。为实现这一目标，FlashAR 设计了三个关键组件：中间层分支（从模型中间层引出垂直预测头，保留更丰富的空间信息）、可学习融合门（自适应融合水平和垂直预测结果）以及两阶段适配训练（先冻结骨干网络训练垂直头，再联合微调）。在 Emu3.5-Image-34B 模型上，仅用 8 万张图片（原始数据的 0.05%），FlashAR 将 512×512 图像生成速度从 130 秒压缩到 5.68 秒，实现 22.9 倍加速，而 GenEval 分数仅下降 0.19 分。在 ImageNet 基准上，FlashAR 也全面超越了现有的后训练加速方法 BlockDiffusion。

💡 主要观点

- FlashAR 通过新增垂直预测头实现对角线并行解码，大幅降低自回归图像生成步数。 传统 AR 模型需要 H×W 步串行生成，FlashAR 为模型增加垂直方向预测能力，使水平和垂直头并行工作，解码步数降至 H+W-1，以 512×512 分辨率为例，从 1024 步降至 63 步。

中间层分支设计是 FlashAR 的关键创新，能更有效地利用预训练模型的二维空间信息。 预训练模型的最终层特征已高度适配水平光栅预测任务，而中间层保留了更丰富的二维空间信息，从中间层引出垂直预测头能更自然地学习新预测方向，且可与原分支并行执行提升吞吐。

FlashAR 仅需 0.05% 原始训练数据即可实现显著加速，且生成质量几乎无损。 在 Emu3.5-34B 模型上，仅用约 8 万张图片后训练，即可实现 22.9 倍加速，GenEval 分数仅下降 0.19 分，部分子项甚至超越原始模型，数据利用效率极高。

💬 文章金句

- FlashAR 的关键洞察在于：图像天然具有 2D 结构，如果我们为模型新增垂直方向的下一个 token 的预测能力，在每个步骤中，水平解码头和垂直解码头并行工作，解码步数从 H×W 骤降至 H+W-1。

FlashAR 证明了一个重要观点：通过精心设计的后训练适配，可以在几乎不改变原始模型训练目标的前提下，将自回归模型改造成高度并行的生成器，完整继承预训练模型的强大能力。
用 0.05% 的原始训练数据（80M token，约 8 万张图片），FlashAR 将 512×512 图像生成速度从 130.10 秒压缩到 5.68 秒，实现 22.9 倍加速。

📊 文章信息

AI 初评：86

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2600

标签： FlashAR, 自回归图像生成, 模型加速, 后训练, 并行解码

阅读完整文章

22.9 倍加速！FlashAR：仅用 0.05%数据，让预训练好的自回归图像模型飞起来

🤖 問 AI