系统聊聊 On-Policy Distillation 的原理

📌 一句话摘要

本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比，并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。

📝 详细摘要

文章从大模型预训练、SFT、RL 的基础知识出发，引出知识蒸馏的核心概念，并深入对比了 KL 散度与逆 KL 散度在 LLM 蒸馏中的差异。随后，文章重点介绍了 On-Policy Distillation (OPD) 的基本原理，将其定位为介于 SFT（泛化性差）和 RL（奖励稀疏）之间的折中方案，并提供了核心代码实现。文章进一步列举了 DeepSeek-R1、Qwen3、HY-MT1.5、MiMO-v2 Flash 等模型在蒸馏方面的实践案例，展示了离线蒸馏和在线蒸馏在不同场景下的应用效果。最后，文章详细介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等六项最新研究，分析了它们各自的改进思路，如自蒸馏、上下文优化、与 RL 的关联挖掘等，并总结了当前 OPD 领域的两大主流改进方向：通过 prompt 设计增强教师网络信息，或从底层数学原理进行优化。

💡 主要观点

- On-Policy Distillation 是介于 SFT 和 RL 之间的折中方案。 OPD 通过学生网络在线生成轨迹，并用教师网络的 logits 进行评分，解决了 SFT 泛化性差和 RL 奖励稀疏的问题，实现了两者的 trade-off。

逆 KL 散度比 KL 散度更适合 LLM 蒸馏。 逆 KL 散度的梯度带有 Q 分布权重，当学生分布概率趋于 0 时梯度也趋于 0，从而更关注头部词汇的分布对齐，减少幻觉现象。

当前 OPD 改进主要围绕上下文设计和底层数学原理两个方向。 一类工作如 OPCD、SDFT 通过精心设计的 prompt 增强教师网络的 logits 信息；另一类如 G-OPD 则从数学上推导 OPD 与 RL 的等价性，引入超参数和第三方模型进行优化。

💬 文章金句

- OPD 本身解决的就是 SFT（offline distillation）泛化性差与 RL 的稀疏奖励问题，可以视为两者的 trade-off。

RKL 相比 KL 来说更关注那些主要成分的梯度更新。
对于大模型来说，评判相比生成，是更简单的任务。
来自环境的反馈和其他的样本推理结果是最重要的，反而模型的原始输出没那么必要。
通过引入 C 来增加教师网络的 logits 输出的信息。

📊 文章信息

AI 初评：86

来源：AINLP

作者：AINLP

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5478

标签： On-Policy Distillation, 知识蒸馏, 大模型训练, 强化学习, 逆KL散度

阅读完整文章

系统聊聊 On-Policy Distillation 的原理

🤖 問 AI