← 回總覽

SFT 别急着接 RL!你的多模态大模型可能一直在“带伤训练”

📅 2026-05-17 11:42 衡宇 人工智能 2 分鐘 1716 字 評分: 87
多模态大模型 SFT 强化学习 分布对齐 PRISM
📌 一句话摘要 最新研究 PRISM 发现,多模态大模型在 SFT 后直接进行 RL 训练,SFT 引入的分布偏移会导致模型性能下降,RL 阶段实际上是在「还债」而非「提升」,需要在两者之间增加一个分布对齐阶段。 📝 详细摘要 来自港科大(广州)、南洋理工、清华等机构的研究团队提出了 PRISM 方法,挑战了多模态大模型后训练中「先 SFT 再 RL」的传统范式。研究发现,SFT 会引入感知漂移和推理漂移两类分布偏差,导致模型在 7 个主流多模态基准上性能平均下降 3-5 个百分点,后续的 RL 训练仅能勉强恢复到原始基线水平。PRISM 的核心创新是在 SFT 和 RL 之间增加一个分布

📌 一句话摘要

最新研究 PRISM 发现,多模态大模型在 SFT 后直接进行 RL 训练,SFT 引入的分布偏移会导致模型性能下降,RL 阶段实际上是在「还债」而非「提升」,需要在两者之间增加一个分布对齐阶段。

📝 详细摘要

来自港科大(广州)、南洋理工、清华等机构的研究团队提出了 PRISM 方法,挑战了多模态大模型后训练中「先 SFT 再 RL」的传统范式。研究发现,SFT 会引入感知漂移和推理漂移两类分布偏差,导致模型在 7 个主流多模态基准上性能平均下降 3-5 个百分点,后续的 RL 训练仅能勉强恢复到原始基线水平。PRISM 的核心创新是在 SFT 和 RL 之间增加一个分布对齐阶段,使用混合专家判别器(感知专家和推理专家)分别纠正两类漂移,通过对抗博弈将模型输出分布对齐到强模型的分布。实验表明,PRISM 在 Qwen3-VL 的 4B 和 8B 模型上,搭配 GRPO/DAPO/GSPO 三种主流 RL 算法,在 7 个基准上平均提升 4.4-6.0 个百分点,且模型越强增益越大。该方法完全黑盒,仅需调用 API 即可使用,无需访问教师模型权重。

💡 主要观点

- SFT 在多模态大模型后训练中会引入感知漂移和推理漂移两类分布偏差。 SFT 使用均匀 token loss 拟合演示轨迹,不区分正确推理步骤和格式化模板,导致模型学会表面模式而非忠实推理。多模态场景下,视觉定位出错(感知漂移)和逻辑推导失败(推理漂移)同时发生,SFT 用同一个 loss 一起拟合,加剧了偏差。

SFT 后模型性能反而下降,RL 阶段实际上是在「还债」而非「提升」。 在 Qwen3-VL 的 4B 和 8B 模型上,SFT 后 7 个多模态基准平均准确率分别下降 3.0 和 5.2 个百分点,后续 GRPO 训练仅能恢复到原始基线水平。模型越强、越接近部署水平,SFT 引入的分布偏移越严重。
PRISM 提出 SFT → 分布对齐 → RLVR 的三阶段范式,核心是混合专家判别器。 PRISM 在 SFT 和 RL 之间增加分布对齐阶段,使用感知专家和推理专家两个专门化判别器分别纠正两类漂移,提供解耦的纠正信号。该方法完全黑盒,仅需调用 API 即可使用,且去掉了传统 KL 散度约束以避免与对齐目标矛盾。
PRISM 在 7 个基准上平均提升 4.4-6.0 个百分点,模型越强增益越大。 在 Qwen3-VL 的 4B 和 8B 模型上,PRISM 搭配 GRPO/DAPO/GSPO 三种 RL 算法,在数学推理和通用多模态基准上全面验证有效性。8B 模型获得 +6.0 平均提升,4B 为 +4.4,消融实验证明每个组件均有显著贡献。

💬 文章金句

- SFT 不仅没有为 RL 铺好路,反而在悄悄挖坑。

  • 你的 RL 可能一直在「还债」,而不是在「提升」。
  • 模型越强、越接近实际部署的水平,SFT 引入的分布偏移就越成为 RL 之前一道绕不开的「暗坑」。
  • RL 算法再强,如果起点就歪了,跑得越快只会偏得越远。
  • 把 SFT 和 RL 之间这一步对齐补上,模型自然会跑得更稳。

📊 文章信息

AI 初评:87

来源:量子位

作者:衡宇

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2916

标签: 多模态大模型, SFT, 强化学习, 分布对齐, PRISM

阅读完整文章

查看原文 → 發佈: 2026-05-17 11:42:11 收錄: 2026-05-17 14:00:51

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。