从 KL 的方向看 SFT 与 RL：大模型到底是在”学会做”，还是在”学会选”？

📌 一句话摘要

本文从 KL 散度的方向性出发，深入分析了 SFT 对应 Forward KL（覆盖目标分布）、RL/RLHF 对应 Reverse KL（聚焦高奖励区域）的数学原理与训练行为差异。

📝 详细摘要

本文从 KL 散度的方向性出发，系统阐述了 Forward KL 与 Reverse KL 在大模型后训练中的对应关系。文章首先解释了 KL 散度非对称性的根源在于期望在哪个分布上取，进而指出 SFT 本质上更接近 Forward KL，其训练样本来自数据分布，行为是覆盖目标分布中的所有模式，即「学会做」。而 RL/RLHF 则更接近 Reverse KL，模型自己生成候选，再由奖励信号筛选，将概率质量集中到高价值区域，即「学会选」。文章进一步延伸讨论了传统蒸馏与 on-policy distillation 的区别，指出前者是 teacher 生成轨迹、student 学习，后者是 student 生成轨迹、teacher 纠偏，并强调「on-policy」与「Reverse KL」是两个不同概念。最后，文章总结了 SFT 与 RL 在后训练中的分工：SFT 打底，让模型学会指令跟随和任务格式；RL 对齐，让模型在已有能力空间里优化偏好。

💡 主要观点

- KL 散度的方向性源于期望在哪个分布上取，而非公式本身的不对称。 Forward KL 的期望在目标分布上，因此重点关注目标分布会出现的位置；Reverse KL 的期望在模型分布上，因此重点关注模型自己会生成的位置。这是两者行为差异的数学根源。

SFT 更接近 Forward KL，行为是覆盖目标分布中的所有模式。 SFT 的训练样本来自数据分布，模型需要拟合人类示范，因此倾向于「学会做」，但无法在多个候选答案中选出最优。

RL/RLHF 更接近 Reverse KL，行为是将概率质量集中到高奖励区域。 RL 让模型自己生成候选，再通过奖励信号筛选，倾向于「学会选」，但可能导致模式坍塌，只保留少数高奖励模式。

传统蒸馏与 on-policy distillation 的区别在于轨迹来源和评价方式。 传统蒸馏是 teacher 生成轨迹，student 学习，属于 off-policy；on-policy distillation 是 student 生成轨迹，teacher 在 student 真实走到的位置上纠偏。

「on-policy」与「Reverse KL」是两个不同概念，不可混用。 on-policy 描述采样轨迹来自谁，Forward/Reverse KL 描述分布比较的方向。即使轨迹来自 student，KL 方向仍可能是 Forward KL。

💬 文章金句

- 谁在期望符号下面，谁就是权重来源。

Forward KL 最害怕的是：目标有，模型没有。Reverse KL 最害怕的是：模型有，目标不认可。
SFT 让模型学会做。RL 让模型更会选。
不是谁更像'真理'，而是谁在采样，谁在评价。
关键不是公式长得多复杂，而是那一个小小的期望符号：谁在这里，谁就定义了训练看见的世界。

📊 文章信息

AI 初评：88

来源：大模型智能

作者：大模型智能

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5002

标签： KL 散度, SFT, RL, RLHF, Forward KL

阅读完整文章

从 KL 的方向看 SFT 与 RL：大模型到底是在”学会做”，还是在”学会选”？

🤖 問 AI