本文系统性地分析了 On-Policy Distillation 的成功条件与失败机制,指出师生模型的思维模式一致性与教师提供增量知识是关键,并揭示了高概率 Token 对齐的微观动态,最后提出了 SFT 冷启动和 Prompt 对齐等实用策略。
📝 详细摘要
文章对近期热门的 On-Policy Distillation 技术进行了深度剖析。作者通过大量对照实验,首先在宏观层面揭示了 OPD 成功的两个先决条件:师生模型的思维模式必须一致,且教师模型必须能提供学生未见过的新知识,而非仅仅是同源放大的版本。随后,文章深入到 Token 级别的训练动态,发现成功的 OPD 表现为师生在高概率 Token 集合上的重叠率持续提升,且绝大部分有效梯度信号都集中于此。基于这些发现,作者提出了两个提升 OPD 成功率的实用配方:使用 SFT 进行冷启动以拉齐初始思维模式,以及使用与教师后训练对齐的 Prompt 来获取更可靠的监督信号。文章最后也讨论了密集奖励的代价,如长轨迹下奖励质量下降等问题。
💡 主要观点
- OPD 的成功依赖于师生思维模式的一致性与教师提供增量知识。 实验表明,即使教师模型基准分数更高,若其思维模式与学生不匹配(如 Base 模型 vs Thinking 模型),或仅是同源放大而未注入新知识,OPD 也会失败甚至导致学生性能退化。
💬 文章金句
- OPD 并不是在单纯地‘学习高分’,而是在主动提取并复刻 teacher 的概率分布模式。
- 思维模式的一致性保证了这种复刻的可行性,而 teacher 侧真实的增量知识则决定了复刻带来的性能上限。
- OPD 的绝大部分有效梯度来自于在双方都已经认可的‘高概率 Overlap Token 集合’里,精准地进行概率权重的再分配。
- 一个在全局有区分度的奖励信号,并不等于它在局部是可以被学生榨取和利用的。
- 我们是在整个社区对于 OPD 的热情持续高涨的时候,试图给 OPD 泼冷水。虽然免费的 Dense Reward 值得让我们欢欣鼓舞,但是正如天下没有免费的午餐,Token 级别的监督信号并非天然可靠。
📊 文章信息
AI 初评:89
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:37 分钟
字数:9137
标签: On-Policy Distillation, 知识蒸馏, 大语言模型, 训练动力学, 模型对齐