本文从 KL 散度的方向性出发,深入分析了 SFT 对应 Forward KL(覆盖目标分布)、RL/RLHF 对应 Reverse KL(聚焦高奖励区域)的数学原理与训练行为差异。
📝 详细摘要
本文从 KL 散度的方向性出发,系统阐述了 Forward KL 与 Reverse KL 在大模型后训练中的对应关系。文章首先解释了 KL 散度非对称性的根源在于期望在哪个分布上取,进而指出 SFT 本质上更接近 Forward KL,其训练样本来自数据分布,行为是覆盖目标分布中的所有模式,即「学会做」。而 RL/RLHF 则更接近 Reverse KL,模型自己生成候选,再由奖励信号筛选,将概率质量集中到高价值区域,即「学会选」。文章进一步延伸讨论了传统蒸馏与 on-policy distillation 的区别,指出前者是 teacher 生成轨迹、student 学习,后者是 student 生成轨迹、teacher 纠偏,并强调「on-policy」与「Reverse KL」是两个不同概念。最后,文章总结了 SFT 与 RL 在后训练中的分工:SFT 打底,让模型学会指令跟随和任务格式;RL 对齐,让模型在已有能力空间里优化偏好。
💡 主要观点
- KL 散度的方向性源于期望在哪个分布上取,而非公式本身的不对称。 Forward KL 的期望在目标分布上,因此重点关注目标分布会出现的位置;Reverse KL 的期望在模型分布上,因此重点关注模型自己会生成的位置。这是两者行为差异的数学根源。
💬 文章金句
- 谁在期望符号下面,谁就是权重来源。
- Forward KL 最害怕的是:目标有,模型没有。Reverse KL 最害怕的是:模型有,目标不认可。
- SFT 让模型学会做。RL 让模型更会选。
- 不是谁更像'真理',而是谁在采样,谁在评价。
- 关键不是公式长得多复杂,而是那一个小小的期望符号:谁在这里,谁就定义了训练看见的世界。
📊 文章信息
AI 初评:88
来源:大模型智能
作者:大模型智能
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5002
标签: KL 散度, SFT, RL, RLHF, Forward KL