告别多奖励跷跷板：Flow-OPD 将多教师 OPD 带入图像生成

📌 一句话摘要

Flow-OPD 是首个将在线策略蒸馏（OPD）引入流匹配模型的统一多任务后训练框架，通过多教师密集监督有效解决了图像生成中多任务联合优化的跷跷板效应。

📝 详细摘要

本文介绍了由中国科学技术大学、UCLA、香港中文大学和小红书等机构合作提出的 Flow-OPD 框架。该框架首次将在线策略蒸馏（OPD）应用于流匹配扩散模型，旨在解决多任务图像生成后训练中的核心难题——跷跷板效应。文章首先分析了传统单奖励 GRPO 和混合奖励 GRPO 在多任务场景下的系统性失效，指出稀疏标量奖励无法调和异构任务间的梯度冲突。Flow-OPD 受 LLM 领域多教师 OPD 策略启发，通过三个关键步骤实现多任务联合优化：单奖励 GRPO 培养领域专家教师、SFT 或模型融合进行学生冷启动、以及多教师在线蒸馏。在蒸馏阶段，学生模型通过在线 rollout 生成图像，系统根据指令自动将任务派发给对应专家教师，使用速度场的均方误差作为密集监督信号。此外，框架引入流形锚点正则化（MAR）来防止背景模式坍塌和语义冗余。实验表明，Flow-OPD 在文本渲染和图像质量等多个维度全面看齐并超越各领域专家模型，甚至在教师模型集体失效的边缘场景下展现出青出于蓝的超越能力。

💡 主要观点

- 传统单奖励和混合奖励 GRPO 在多任务图像生成中面临跷跷板效应。 单奖励 GRPO 虽能提升单一任务性能，但会导致非目标领域能力严重退化；混合奖励 GRPO 则因异构梯度冲突引发灾难性遗忘，无法建立稳定的多任务认知基础。

Flow-OPD 通过多教师在线密集监督机制解决多任务梯度冲突。 框架利用多个单任务专家教师，在学生模型在线生成过程中提供实时的、任务特定的密集信号（速度场均方误差），替代稀疏标量奖励，从而有效调和异构任务间的梯度干扰。

流形锚点正则化（MAR）防止优化过程中的生成质量退化。 MAR 维护一个冻结的美学教师模型，提供高保真的 KL 正则化，将优化过程锚定在高保真流形上，防止因激进优化功能性目标而导致的背景模式坍塌和语义冗余。

Flow-OPD 展现出超越单一教师模型的青出于蓝能力。 在多位导师模型集体失效的边缘场景下，学生模型通过多专家协同监督，消除了单一模型的领域偏见，在潜空间中探索出超越任意单一导师的更优解法。

💬 文章金句

- 无论是 GRPO 单独训练还是混合训练，其核心症结在于稀疏的标量奖励无法有效调和异构任务之间的梯度冲突。

Flow-OPD 的核心思想是让学生模型通过「实践」暴露自身的错误与偏差，并在自己生成的图像路径上，实时接受不同专家教师的精准指引。
这种通过多专家协同监督的方式，成功消除了单一模型的领域偏见，促使学生模型在潜空间中融会贯通，最终探索出超越任意单一导师的更优解法。

📊 文章信息

AI 初评：86

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2687

标签： Flow-OPD, 在线策略蒸馏, 流匹配模型, 多任务学习, 图像生成

阅读完整文章

告别多奖励跷跷板：Flow-OPD 将多教师 OPD 带入图像生成

🤖 問 AI