本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。
📝 详细摘要
文章以 KL 散度的非对称性为切入点,系统阐述了 Forward KL 和 Reverse KL 在数学形式、行为倾向和训练目标上的根本区别。Forward KL 的期望在目标分布上取,倾向于 mode-covering,对应 SFT 的模仿学习行为,即模型拟合人类示范数据。Reverse KL 的期望在模型分布上取,倾向于 mode-seeking,对应 KL 正则化 RL/RLHF 的优化行为,即模型自己生成候选再由奖励信号筛选强化。文章进一步将这一框架延伸至传统蒸馏(off-policy)与 on-policy distillation 的对比,指出前者是老师先走、学生学老师走过的路,后者是学生先走、老师在学生真实走到的位置上纠偏。最后,文章强调了区分「轨迹来源」与「KL 方向」两个概念的重要性,并总结了 SFT 与 RL 在后训练中的分工:SFT 让模型学会做,RL 让模型更会选。
💡 主要观点
- KL 散度的方向性源于期望在哪个分布上取,而非分布差异本身。 Forward KL 的期望在目标分布上,关注目标有而模型没有的区域;Reverse KL 的期望在模型分布上,关注模型有而目标不认可的区域。
💬 文章金句
- 谁在期望符号下面,谁就是权重来源。
- Forward KL 最害怕的是:目标有,模型没有。
- Reverse KL 最害怕的是:模型有,目标不认可。
- SFT 让模型学会做。RL 让模型更会选。
- 不是谁更像'真理',而是谁在采样,谁在评价。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5161
标签: KL 散度, SFT, RL, RLHF, 大模型后训练