从 KL 的方向看 SFT 与 RL：大模型到底是在”学会做”，还是在”学会选”？

📌 一句话摘要

本文从 KL 散度的方向性出发，深入剖析了 SFT（Forward KL）与 RL（Reverse KL）在大模型后训练中的本质差异，并延伸讨论了传统蒸馏与 on-policy distillation 的区别。

📝 详细摘要

文章以 KL 散度的非对称性为切入点，系统阐述了 Forward KL 和 Reverse KL 在数学形式、行为倾向和训练目标上的根本区别。Forward KL 的期望在目标分布上取，倾向于 mode-covering，对应 SFT 的模仿学习行为，即模型拟合人类示范数据。Reverse KL 的期望在模型分布上取，倾向于 mode-seeking，对应 KL 正则化 RL/RLHF 的优化行为，即模型自己生成候选再由奖励信号筛选强化。文章进一步将这一框架延伸至传统蒸馏（off-policy）与 on-policy distillation 的对比，指出前者是老师先走、学生学老师走过的路，后者是学生先走、老师在学生真实走到的位置上纠偏。最后，文章强调了区分「轨迹来源」与「KL 方向」两个概念的重要性，并总结了 SFT 与 RL 在后训练中的分工：SFT 让模型学会做，RL 让模型更会选。

💡 主要观点

- KL 散度的方向性源于期望在哪个分布上取，而非分布差异本身。 Forward KL 的期望在目标分布上，关注目标有而模型没有的区域；Reverse KL 的期望在模型分布上，关注模型有而目标不认可的区域。

SFT 更接近 Forward KL，行为倾向是 mode-covering。 SFT 在数据分布上采样，模型拟合人类示范，目标是覆盖数据中的所有模式，因此更像模仿学习。

KL 正则化 RL/RLHF 更接近 Reverse KL，行为倾向是 mode-seeking。 RL 在模型策略上采样，模型先生成再由奖励信号筛选，将概率质量集中到高奖励区域，更像优化和选择。

传统蒸馏与 on-policy distillation 的区别在于轨迹来源和 KL 方向。 传统蒸馏是 off-policy 的 Forward KL，老师生成轨迹学生学；on-policy distillation 是学生生成轨迹，老师在其真实路径上纠偏，但 KL 方向不一定是 Reverse KL。

SFT 让模型学会做，RL 让模型更会选。 SFT 建立基本能力，覆盖示范模式；RL 在已有能力空间里改变概率分布，优化偏好，实现对齐。

💬 文章金句

- 谁在期望符号下面，谁就是权重来源。

Forward KL 最害怕的是：目标有，模型没有。
Reverse KL 最害怕的是：模型有，目标不认可。
SFT 让模型学会做。RL 让模型更会选。
不是谁更像'真理'，而是谁在采样，谁在评价。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5161

标签： KL 散度, SFT, RL, RLHF, 大模型后训练

阅读完整文章

从 KL 的方向看 SFT 与 RL：大模型到底是在”学会做”，还是在”学会选”？

🤖 問 AI