← 回總覽

系统聊聊 On-Policy Distillation 的原理

📅 2026-04-27 16:14 AINLP 人工智能 2 分鐘 1391 字 評分: 86
On-Policy Distillation 知识蒸馏 大模型训练 强化学习 逆KL散度
📌 一句话摘要 本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比,并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。 📝 详细摘要 文章从大模型预训练、SFT、RL 的基础知识出发,引出知识蒸馏的核心概念,并深入对比了 KL 散度与逆 KL 散度在 LLM 蒸馏中的差异。随后,文章重点介绍了 On-Policy Distillation (OPD) 的基本原理,将其定位为介于 SFT(泛化性差)和 RL(奖励稀疏)之间的折中方案,并提供了核心代码实现。文章进一步列举了 DeepSeek-R1、Qwen3、H

📌 一句话摘要

本文系统梳理了 On-Policy Distillation 的原理、与离线蒸馏和强化学习的对比,并介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等最新研究进展。

📝 详细摘要

文章从大模型预训练、SFT、RL 的基础知识出发,引出知识蒸馏的核心概念,并深入对比了 KL 散度与逆 KL 散度在 LLM 蒸馏中的差异。随后,文章重点介绍了 On-Policy Distillation (OPD) 的基本原理,将其定位为介于 SFT(泛化性差)和 RL(奖励稀疏)之间的折中方案,并提供了核心代码实现。文章进一步列举了 DeepSeek-R1、Qwen3、HY-MT1.5、MiMO-v2 Flash 等模型在蒸馏方面的实践案例,展示了离线蒸馏和在线蒸馏在不同场景下的应用效果。最后,文章详细介绍了 OPSD、SDFT、SDPO、OPCD、OEL、G-OPD 等六项最新研究,分析了它们各自的改进思路,如自蒸馏、上下文优化、与 RL 的关联挖掘等,并总结了当前 OPD 领域的两大主流改进方向:通过 prompt 设计增强教师网络信息,或从底层数学原理进行优化。

💡 主要观点

- On-Policy Distillation 是介于 SFT 和 RL 之间的折中方案。 OPD 通过学生网络在线生成轨迹,并用教师网络的 logits 进行评分,解决了 SFT 泛化性差和 RL 奖励稀疏的问题,实现了两者的 trade-off。

逆 KL 散度比 KL 散度更适合 LLM 蒸馏。 逆 KL 散度的梯度带有 Q 分布权重,当学生分布概率趋于 0 时梯度也趋于 0,从而更关注头部词汇的分布对齐,减少幻觉现象。
当前 OPD 改进主要围绕上下文设计和底层数学原理两个方向。 一类工作如 OPCD、SDFT 通过精心设计的 prompt 增强教师网络的 logits 信息;另一类如 G-OPD 则从数学上推导 OPD 与 RL 的等价性,引入超参数和第三方模型进行优化。

💬 文章金句

- OPD 本身解决的就是 SFT(offline distillation)泛化性差与 RL 的稀疏奖励问题,可以视为两者的 trade-off。

  • RKL 相比 KL 来说更关注那些主要成分的梯度更新。
  • 对于大模型来说,评判相比生成,是更简单的任务。
  • 来自环境的反馈和其他的样本推理结果是最重要的,反而模型的原始输出没那么必要。
  • 通过引入 C 来增加教师网络的 logits 输出的信息。

📊 文章信息

AI 初评:86

来源:AINLP

作者:AINLP

分类:人工智能

语言:中文

阅读时间:22 分钟

字数:5478

标签: On-Policy Distillation, 知识蒸馏, 大模型训练, 强化学习, 逆KL散度

阅读完整文章

查看原文 → 發佈: 2026-04-27 16:14:00 收錄: 2026-04-28 00:00:39

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。