SFT 别急着接 RL！你的多模态大模型可能一直在“带伤训练”

📌 一句话摘要

最新研究 PRISM 发现，多模态大模型在 SFT 后直接进行 RL 训练，SFT 引入的分布偏移会导致模型性能下降，RL 阶段实际上是在「还债」而非「提升」，需要在两者之间增加一个分布对齐阶段。

📝 详细摘要

来自港科大（广州）、南洋理工、清华等机构的研究团队提出了 PRISM 方法，挑战了多模态大模型后训练中「先 SFT 再 RL」的传统范式。研究发现，SFT 会引入感知漂移和推理漂移两类分布偏差，导致模型在 7 个主流多模态基准上性能平均下降 3-5 个百分点，后续的 RL 训练仅能勉强恢复到原始基线水平。PRISM 的核心创新是在 SFT 和 RL 之间增加一个分布对齐阶段，使用混合专家判别器（感知专家和推理专家）分别纠正两类漂移，通过对抗博弈将模型输出分布对齐到强模型的分布。实验表明，PRISM 在 Qwen3-VL 的 4B 和 8B 模型上，搭配 GRPO/DAPO/GSPO 三种主流 RL 算法，在 7 个基准上平均提升 4.4-6.0 个百分点，且模型越强增益越大。该方法完全黑盒，仅需调用 API 即可使用，无需访问教师模型权重。

💡 主要观点

- SFT 在多模态大模型后训练中会引入感知漂移和推理漂移两类分布偏差。 SFT 使用均匀 token loss 拟合演示轨迹，不区分正确推理步骤和格式化模板，导致模型学会表面模式而非忠实推理。多模态场景下，视觉定位出错（感知漂移）和逻辑推导失败（推理漂移）同时发生，SFT 用同一个 loss 一起拟合，加剧了偏差。

SFT 后模型性能反而下降，RL 阶段实际上是在「还债」而非「提升」。 在 Qwen3-VL 的 4B 和 8B 模型上，SFT 后 7 个多模态基准平均准确率分别下降 3.0 和 5.2 个百分点，后续 GRPO 训练仅能恢复到原始基线水平。模型越强、越接近部署水平，SFT 引入的分布偏移越严重。

PRISM 提出 SFT → 分布对齐 → RLVR 的三阶段范式，核心是混合专家判别器。 PRISM 在 SFT 和 RL 之间增加分布对齐阶段，使用感知专家和推理专家两个专门化判别器分别纠正两类漂移，提供解耦的纠正信号。该方法完全黑盒，仅需调用 API 即可使用，且去掉了传统 KL 散度约束以避免与对齐目标矛盾。

PRISM 在 7 个基准上平均提升 4.4-6.0 个百分点，模型越强增益越大。 在 Qwen3-VL 的 4B 和 8B 模型上，PRISM 搭配 GRPO/DAPO/GSPO 三种 RL 算法，在数学推理和通用多模态基准上全面验证有效性。8B 模型获得 +6.0 平均提升，4B 为 +4.4，消融实验证明每个组件均有显著贡献。

💬 文章金句

- SFT 不仅没有为 RL 铺好路，反而在悄悄挖坑。

你的 RL 可能一直在「还债」，而不是在「提升」。
模型越强、越接近实际部署的水平，SFT 引入的分布偏移就越成为 RL 之前一道绕不开的「暗坑」。
RL 算法再强，如果起点就歪了，跑得越快只会偏得越远。
把 SFT 和 RL 之间这一步对齐补上，模型自然会跑得更稳。

📊 文章信息

AI 初评：87

来源：量子位

作者：衡宇

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2916

标签：多模态大模型, SFT, 强化学习, 分布对齐, PRISM

阅读完整文章

SFT 别急着接 RL！你的多模态大模型可能一直在“带伤训练”

🤖 問 AI