Rethinking On-Policy Distillation of Large Language Models: 现象、机制与配方

📌 一句话摘要

本文系统性地分析了 On-Policy Distillation 的成功条件与失败机制，指出师生模型的思维模式一致性与教师提供增量知识是关键，并揭示了高概率 Token 对齐的微观动态，最后提出了 SFT 冷启动和 Prompt 对齐等实用策略。

📝 详细摘要

文章对近期热门的 On-Policy Distillation 技术进行了深度剖析。作者通过大量对照实验，首先在宏观层面揭示了 OPD 成功的两个先决条件：师生模型的思维模式必须一致，且教师模型必须能提供学生未见过的新知识，而非仅仅是同源放大的版本。随后，文章深入到 Token 级别的训练动态，发现成功的 OPD 表现为师生在高概率 Token 集合上的重叠率持续提升，且绝大部分有效梯度信号都集中于此。基于这些发现，作者提出了两个提升 OPD 成功率的实用配方：使用 SFT 进行冷启动以拉齐初始思维模式，以及使用与教师后训练对齐的 Prompt 来获取更可靠的监督信号。文章最后也讨论了密集奖励的代价，如长轨迹下奖励质量下降等问题。

💡 主要观点

- OPD 的成功依赖于师生思维模式的一致性与教师提供增量知识。 实验表明，即使教师模型基准分数更高，若其思维模式与学生不匹配（如 Base 模型 vs Thinking 模型），或仅是同源放大而未注入新知识，OPD 也会失败甚至导致学生性能退化。

OPD 的微观机制是高概率 Token 的渐进对齐，重叠 Token 承载了绝大部分有效梯度。 通过监控 Overlap Ratio 等指标发现，成功的 OPD 训练中，师生在高概率 Token 上的重叠率稳步上升，且仅在这些重叠 Token 上进行优化就足以复现全部性能增益。

可通过 SFT 冷启动和 Prompt 对齐等策略有效提升 OPD 成功率与效果。 在正式 OPD 前先用教师生成的数据进行 SFT，可以拉高初始重叠率；使用与教师后训练阶段对齐的 Prompt 模板和内容，能获得更高质量、更可用的监督信号。

密集的 Token 级奖励并非没有代价，长轨迹下奖励质量会严重下降。 随着生成轨迹变长，教师模型在后续位置提供的奖励信号会逐渐失真甚至变为噪声，这对长文本推理和多轮 Agent 任务构成了硬边界。

💬 文章金句

- OPD 并不是在单纯地‘学习高分’，而是在主动提取并复刻 teacher 的概率分布模式。

思维模式的一致性保证了这种复刻的可行性，而 teacher 侧真实的增量知识则决定了复刻带来的性能上限。
OPD 的绝大部分有效梯度来自于在双方都已经认可的‘高概率 Overlap Token 集合’里，精准地进行概率权重的再分配。
一个在全局有区分度的奖励信号，并不等于它在局部是可以被学生榨取和利用的。
我们是在整个社区对于 OPD 的热情持续高涨的时候，试图给 OPD 泼冷水。虽然免费的 Dense Reward 值得让我们欢欣鼓舞，但是正如天下没有免费的午餐，Token 级别的监督信号并非天然可靠。

📊 文章信息

AI 初评：89

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：37 分钟

字数：9137

标签： On-Policy Distillation, 知识蒸馏, 大语言模型, 训练动力学, 模型对齐

阅读完整文章

Rethinking On-Policy Distillation of Large Language Models: 现象、机制与配方

🤖 問 AI