FlashAR 提出一种轻量级后训练加速框架,通过为预训练自回归图像模型新增垂直预测头和对角线并行解码,仅用 0.05% 原始数据即可实现最高 22.9 倍加速,且生成质量几乎无损。
📝 详细摘要
本文介绍了由浙江大学和阿德莱德大学联合提出的 FlashAR 框架,旨在解决自回归图像生成模型推理速度慢的问题。传统 AR 模型采用光栅扫描顺序,生成一张 512×512 图像需要 1024 步串行解码。FlashAR 的核心洞察是利用图像的 2D 结构,为预训练模型新增一个垂直方向的预测头,与原有的水平预测头并行工作,将解码步数从 H×W 降至 H+W-1。为实现这一目标,FlashAR 设计了三个关键组件:中间层分支(从模型中间层引出垂直预测头,保留更丰富的空间信息)、可学习融合门(自适应融合水平和垂直预测结果)以及两阶段适配训练(先冻结骨干网络训练垂直头,再联合微调)。在 Emu3.5-Image-34B 模型上,仅用 8 万张图片(原始数据的 0.05%),FlashAR 将 512×512 图像生成速度从 130 秒压缩到 5.68 秒,实现 22.9 倍加速,而 GenEval 分数仅下降 0.19 分。在 ImageNet 基准上,FlashAR 也全面超越了现有的后训练加速方法 BlockDiffusion。
💡 主要观点
- FlashAR 通过新增垂直预测头实现对角线并行解码,大幅降低自回归图像生成步数。 传统 AR 模型需要 H×W 步串行生成,FlashAR 为模型增加垂直方向预测能力,使水平和垂直头并行工作,解码步数降至 H+W-1,以 512×512 分辨率为例,从 1024 步降至 63 步。
💬 文章金句
- FlashAR 的关键洞察在于:图像天然具有 2D 结构,如果我们为模型新增垂直方向的下一个 token 的预测能力,在每个步骤中,水平解码头和垂直解码头并行工作,解码步数从 H×W 骤降至 H+W-1。
- FlashAR 证明了一个重要观点:通过精心设计的后训练适配,可以在几乎不改变原始模型训练目标的前提下,将自回归模型改造成高度并行的生成器,完整继承预训练模型的强大能力。
- 用 0.05% 的原始训练数据(80M token,约 8 万张图片),FlashAR 将 512×512 图像生成速度从 130.10 秒压缩到 5.68 秒,实现 22.9 倍加速。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2600
标签: FlashAR, 自回归图像生成, 模型加速, 后训练, 并行解码