最新研究 PRISM 发现,多模态大模型在 SFT 后直接进行 RL 训练,SFT 引入的分布偏移会导致模型性能下降,RL 阶段实际上是在「还债」而非「提升」,需要在两者之间增加一个分布对齐阶段。
📝 详细摘要
来自港科大(广州)、南洋理工、清华等机构的研究团队提出了 PRISM 方法,挑战了多模态大模型后训练中「先 SFT 再 RL」的传统范式。研究发现,SFT 会引入感知漂移和推理漂移两类分布偏差,导致模型在 7 个主流多模态基准上性能平均下降 3-5 个百分点,后续的 RL 训练仅能勉强恢复到原始基线水平。PRISM 的核心创新是在 SFT 和 RL 之间增加一个分布对齐阶段,使用混合专家判别器(感知专家和推理专家)分别纠正两类漂移,通过对抗博弈将模型输出分布对齐到强模型的分布。实验表明,PRISM 在 Qwen3-VL 的 4B 和 8B 模型上,搭配 GRPO/DAPO/GSPO 三种主流 RL 算法,在 7 个基准上平均提升 4.4-6.0 个百分点,且模型越强增益越大。该方法完全黑盒,仅需调用 API 即可使用,无需访问教师模型权重。
💡 主要观点
- SFT 在多模态大模型后训练中会引入感知漂移和推理漂移两类分布偏差。 SFT 使用均匀 token loss 拟合演示轨迹,不区分正确推理步骤和格式化模板,导致模型学会表面模式而非忠实推理。多模态场景下,视觉定位出错(感知漂移)和逻辑推导失败(推理漂移)同时发生,SFT 用同一个 loss 一起拟合,加剧了偏差。
💬 文章金句
- SFT 不仅没有为 RL 铺好路,反而在悄悄挖坑。
- 你的 RL 可能一直在「还债」,而不是在「提升」。
- 模型越强、越接近实际部署的水平,SFT 引入的分布偏移就越成为 RL 之前一道绕不开的「暗坑」。
- RL 算法再强,如果起点就歪了,跑得越快只会偏得越远。
- 把 SFT 和 RL 之间这一步对齐补上,模型自然会跑得更稳。
📊 文章信息
AI 初评:87
来源:量子位
作者:衡宇
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2916
标签: 多模态大模型, SFT, 强化学习, 分布对齐, PRISM