本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比,并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。
📝 详细摘要
文章从大模型预训练、SFT、RL 的基础知识出发,引出知识蒸馏的核心概念,并深入对比了 KL 散度与逆 KL 散度在 LLM 蒸馏中的差异。随后,文章重点介绍了 On-Policy Distillation (OPD) 的基本原理,将其定位为介于 SFT(泛化性差)和 RL(奖励稀疏)之间的折中方案,并提供了核心代码实现。文章进一步列举了 DeepSeek-R1、Qwen3、HY-MT1.5、MiMO-v2 Flash 等模型在蒸馏方面的实践案例,展示了离线蒸馏和在线蒸馏在不同场景下的应用效果。最后,文章详细介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等六项最新研究,分析了它们各自的改进思路,如自蒸馏、上下文优化、与 RL 的关联挖掘等,并总结了当前 OPD 领域的两大主流改进方向:通过 prompt 设计增强教师网络信息,或从底层数学原理进行优化。
💡 主要观点
- On-Policy Distillation 是介于 SFT 和 RL 之间的折中方案。 OPD 通过学生网络在线生成轨迹,并用教师网络的 logits 进行评分,解决了 SFT 泛化性差和 RL 奖励稀疏的问题,实现了两者的 trade-off。
💬 文章金句
- OPD 本身解决的就是 SFT(offline distillation)泛化性差与 RL 的稀疏奖励问题,可以视为两者的 trade-off。
- RKL 相比 KL 来说更关注那些主要成分的梯度更新。
- 对于大模型来说,评判相比生成,是更简单的任务。
- 来自环境的反馈和其他的样本推理结果是最重要的,反而模型的原始输出没那么必要。
- 通过引入 C 来增加教师网络的 logits 输出的信息。
📊 文章信息
AI 初评:86
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5478
标签: On-Policy Distillation, 知识蒸馏, 大模型训练, 强化学习, 逆KL散度