← 回總覽

从 KL 的方向看 SFT 与 RL:大模型到底是在”学会做”,还是在”学会选”?

📅 2026-05-26 00:00 大模型智能 人工智能 2 分鐘 1732 字 評分: 88
KL 散度 SFT RL RLHF Forward KL
📌 一句话摘要 本文从 KL 散度的方向性出发,深入分析了 SFT 对应 Forward KL(覆盖目标分布)、RL/RLHF 对应 Reverse KL(聚焦高奖励区域)的数学原理与训练行为差异。 📝 详细摘要 本文从 KL 散度的方向性出发,系统阐述了 Forward KL 与 Reverse KL 在大模型后训练中的对应关系。文章首先解释了 KL 散度非对称性的根源在于期望在哪个分布上取,进而指出 SFT 本质上更接近 Forward KL,其训练样本来自数据分布,行为是覆盖目标分布中的所有模式,即「学会做」。而 RL/RLHF 则更接近 Reverse KL,模型自己生成候选,再由

📌 一句话摘要

本文从 KL 散度的方向性出发,深入分析了 SFT 对应 Forward KL(覆盖目标分布)、RL/RLHF 对应 Reverse KL(聚焦高奖励区域)的数学原理与训练行为差异。

📝 详细摘要

本文从 KL 散度的方向性出发,系统阐述了 Forward KL 与 Reverse KL 在大模型后训练中的对应关系。文章首先解释了 KL 散度非对称性的根源在于期望在哪个分布上取,进而指出 SFT 本质上更接近 Forward KL,其训练样本来自数据分布,行为是覆盖目标分布中的所有模式,即「学会做」。而 RL/RLHF 则更接近 Reverse KL,模型自己生成候选,再由奖励信号筛选,将概率质量集中到高价值区域,即「学会选」。文章进一步延伸讨论了传统蒸馏与 on-policy distillation 的区别,指出前者是 teacher 生成轨迹、student 学习,后者是 student 生成轨迹、teacher 纠偏,并强调「on-policy」与「Reverse KL」是两个不同概念。最后,文章总结了 SFT 与 RL 在后训练中的分工:SFT 打底,让模型学会指令跟随和任务格式;RL 对齐,让模型在已有能力空间里优化偏好。

💡 主要观点

- KL 散度的方向性源于期望在哪个分布上取,而非公式本身的不对称。 Forward KL 的期望在目标分布上,因此重点关注目标分布会出现的位置;Reverse KL 的期望在模型分布上,因此重点关注模型自己会生成的位置。这是两者行为差异的数学根源。

SFT 更接近 Forward KL,行为是覆盖目标分布中的所有模式。 SFT 的训练样本来自数据分布,模型需要拟合人类示范,因此倾向于「学会做」,但无法在多个候选答案中选出最优。
RL/RLHF 更接近 Reverse KL,行为是将概率质量集中到高奖励区域。 RL 让模型自己生成候选,再通过奖励信号筛选,倾向于「学会选」,但可能导致模式坍塌,只保留少数高奖励模式。
传统蒸馏与 on-policy distillation 的区别在于轨迹来源和评价方式。 传统蒸馏是 teacher 生成轨迹,student 学习,属于 off-policy;on-policy distillation 是 student 生成轨迹,teacher 在 student 真实走到的位置上纠偏。
「on-policy」与「Reverse KL」是两个不同概念,不可混用。 on-policy 描述采样轨迹来自谁,Forward/Reverse KL 描述分布比较的方向。即使轨迹来自 student,KL 方向仍可能是 Forward KL。

💬 文章金句

- 谁在期望符号下面,谁就是权重来源。

  • Forward KL 最害怕的是:目标有,模型没有。Reverse KL 最害怕的是:模型有,目标不认可。
  • SFT 让模型学会做。RL 让模型更会选。
  • 不是谁更像'真理',而是谁在采样,谁在评价。
  • 关键不是公式长得多复杂,而是那一个小小的期望符号:谁在这里,谁就定义了训练看见的世界。

📊 文章信息

AI 初评:88

来源:大模型智能

作者:大模型智能

分类:人工智能

语言:中文

阅读时间:21 分钟

字数:5002

标签: KL 散度, SFT, RL, RLHF, Forward KL

阅读完整文章

查看原文 → 發佈: 2026-05-26 00:00:00 收錄: 2026-05-26 10:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。