OPD 深度解析：从数学推导到 DeepSeekV4、SWIFT 与 verl 实践

📌 一句话摘要

本文从数学推导出发，系统性地解析了同策略蒸馏（OPD）的核心原理、关键维度（prefix 来源、teacher 信号粒度、KL 方向、优化方式），并详细对比了 MiniLLM、DeepSeek V4、SWIFT、verl 等主流框架的实现差异与实践选择。

📝 详细摘要

本文是一篇关于同策略蒸馏（On-Policy Distillation， OPD）的深度技术解析。文章首先从数学上定义了 OPD，并阐明了其与普通 SFT/KD 在解决 exposure bias 上的根本区别。核心贡献在于系统性地拆解了 OPD 的四个关键维度：prefix 来源（dataset/teacher/student）、teacher 信号粒度（sampled-token/top-k/full-vocab）、KL 方向（forward/reverse/JSD）以及优化方式（direct loss/policy gradient）。文章深入分析了不同维度组合下的数学目标、优缺点和失败模式，例如 sampled-token 的高方差问题、top-k 的截断偏差以及 full-vocab 的高昂成本。在此基础上，文章详细解读了 MiniLLM、DeepSeek V4、SWIFT、verl 主仓及 verl-recipe/gkd 等主流框架的具体实现，将每个框架的配置与特定的数学目标对应起来。最后，文章给出了实践建议，包括最小实验矩阵、关键监控指标和超参推荐，并总结了 OPD 的局限，强调其作为 post-training glue 而非 RL 替代品的定位。

💡 主要观点

- OPD 的核心是让学生模型在自己的生成轨迹上学习教师模型的监督信号，以缓解 exposure bias。 与在固定数据集或教师生成数据上训练的 off-policy 方法不同，OPD 的训练 prefix 来自学生自己的生成，使其在推理时遇到的错误状态也能得到有效训练，从而解决训练与推理时的分布不一致问题。

OPD 的行为由 prefix 来源、teacher 信号粒度、KL 方向和优化方式四个维度共同决定。 这四维度的不同组合构成了 OPD 的方法族。例如，sampled-token OPD 成本低但信号稀疏，full-vocab OPD 信息最完整但工程极贵；reverse KL 适合推理等 mode-seeking 任务，forward KL 则更保守。

DeepSeek V4 采用 full-vocab multi-teacher reverse KL，通过工程优化实现了高成本下的完整蒸馏。 DeepSeek V4 通过缓存 teacher last-layer hidden states、动态重构 full logits 和专用 kernel 等工程手段，实现了对多个 domain-specific expert 的 full-vocab reverse KL 蒸馏，避免了 sampled-token 的高方差问题。

SWIFT 和 verl 提供了灵活的配置，可对应多种 OPD 变体，但各有侧重。 SWIFT 通过 lmbda、beta、gkd_logits_topk 等参数，可灵活配置 prefix 来源、KL 方向和信号粒度，是实现 DeepSeek V4 式单教师 full-vocab RKL 的便捷选择。verl 则同时支持 sampled-token 的 k1/k2/k3 估计器和 top-k forward KL，并提供了 policy-gradient 和 direct loss 两种优化方式。

OPD 的成功依赖于 teacher-student 的 thinking-pattern 一致性，而非单纯的 teacher 性能。 Rethinking OPD 的研究表明，teacher 和 student 的 top-k token overlap 是 OPD 成功的关键指标。如果两者思维模式不一致，即使 teacher 更强，OPD 也可能失效。因此，off-policy cold start 和对齐 prompt 是重要的实践技巧。

💬 文章金句

- OPD 的核心价值，是让模型在自己会遇到的状态上，接受来自更强模型的密集监督；而 OPD 的核心风险，是这个密集监督可能在错误 prefix、错误 token 粒度、错误 KL 方向下变成密集噪声。

sampled-token 是'teacher 评价 student 这一步实际说出的 token'；top-k 是'teacher 告诉 student 它最看好的 K 个候选'；full-vocab 是'teacher 把完整分布都给 student'。
OPD 不是单一算法，而是一族方法。真正决定它行为的是：1.prefix 是谁生成的？2.teacher 给 sampled token、top-k 还是 full-vocab？3.KL 方向是 forward、reverse 还是 JSD？4.loss 是 direct backprop 还是 policy-gradient advantage？5.teacher 和 student 的 thinking pattern 是否一致？
OPD 擅长把 teacher 已经发现的能力迁移给 student。它不擅长发现 teacher 不会的新策略。

📊 文章信息

AI 初评：88

来源：大模型智能

作者：大模型智能

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6972

标签： OPD, 同策略蒸馏, 知识蒸馏, 大语言模型, DeepSeek V4

阅读完整文章

OPD 深度解析：从数学推导到 DeepSeekV4、SWIFT 与 verl 实践

🤖 問 AI