← 回總覽

从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?

📅 2026-05-23 00:00 青稞AI 人工智能 2 分鐘 1592 字 評分: 86
KL 散度 SFT RL RLHF 大模型后训练
📌 一句话摘要 本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。 📝 详细摘要 文章以 KL 散度的非对称性为切入点,系统阐述了 Forward KL 和 Reverse KL 在数学形式、行为倾向和训练目标上的根本区别。Forward KL 的期望在目标分布上取,倾向于 mode-covering,对应 SFT 的模仿学习行为,即模型拟合人类示范数据。Reverse KL 的期望在模型分布上取,倾向于 mode-seeking

📌 一句话摘要

本文从 KL 散度的方向性出发,深入剖析了 SFT(Forward KL)与 RL(Reverse KL)在大模型后训练中的本质差异,并延伸讨论了传统蒸馏与 on-policy distillation 的区别。

📝 详细摘要

文章以 KL 散度的非对称性为切入点,系统阐述了 Forward KL 和 Reverse KL 在数学形式、行为倾向和训练目标上的根本区别。Forward KL 的期望在目标分布上取,倾向于 mode-covering,对应 SFT 的模仿学习行为,即模型拟合人类示范数据。Reverse KL 的期望在模型分布上取,倾向于 mode-seeking,对应 KL 正则化 RL/RLHF 的优化行为,即模型自己生成候选再由奖励信号筛选强化。文章进一步将这一框架延伸至传统蒸馏(off-policy)与 on-policy distillation 的对比,指出前者是老师先走、学生学老师走过的路,后者是学生先走、老师在学生真实走到的位置上纠偏。最后,文章强调了区分「轨迹来源」与「KL 方向」两个概念的重要性,并总结了 SFT 与 RL 在后训练中的分工:SFT 让模型学会做,RL 让模型更会选。

💡 主要观点

- KL 散度的方向性源于期望在哪个分布上取,而非分布差异本身。 Forward KL 的期望在目标分布上,关注目标有而模型没有的区域;Reverse KL 的期望在模型分布上,关注模型有而目标不认可的区域。

SFT 更接近 Forward KL,行为倾向是 mode-covering。 SFT 在数据分布上采样,模型拟合人类示范,目标是覆盖数据中的所有模式,因此更像模仿学习。
KL 正则化 RL/RLHF 更接近 Reverse KL,行为倾向是 mode-seeking。 RL 在模型策略上采样,模型先生成再由奖励信号筛选,将概率质量集中到高奖励区域,更像优化和选择。
传统蒸馏与 on-policy distillation 的区别在于轨迹来源和 KL 方向。 传统蒸馏是 off-policy 的 Forward KL,老师生成轨迹学生学;on-policy distillation 是学生生成轨迹,老师在其真实路径上纠偏,但 KL 方向不一定是 Reverse KL。
SFT 让模型学会做,RL 让模型更会选。 SFT 建立基本能力,覆盖示范模式;RL 在已有能力空间里改变概率分布,优化偏好,实现对齐。

💬 文章金句

- 谁在期望符号下面,谁就是权重来源。

  • Forward KL 最害怕的是:目标有,模型没有。
  • Reverse KL 最害怕的是:模型有,目标不认可。
  • SFT 让模型学会做。RL 让模型更会选。
  • 不是谁更像'真理',而是谁在采样,谁在评价。

📊 文章信息

AI 初评:86

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:21 分钟

字数:5161

标签: KL 散度, SFT, RL, RLHF, 大模型后训练

阅读完整文章

查看原文 → 發佈: 2026-05-23 00:00:00 收錄: 2026-05-23 22:00:59

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。