本文深入剖析了 OpenClaw-RL 框架中的 On-Policy Distillation (OPD) 机制,详细阐述了其原理、数学形式、与 PPO/DPO/KD 的区别,以及 Hindsight-Guided OPD 的具体实现。
📝 详细摘要
本文是 OpenClaw-RL 源码阅读笔记系列的第二篇,聚焦于其核心设计——On-Policy Distillation (OPD)。文章首先从解决传统 RL 稀疏奖励和离线 KD 分布偏移的两难困境出发,阐述了 OPD 的核心定位:让学生模型在自身生成的轨迹上学习,同时获得教师模型提供的逐步骤密集监督信号。随后,文章深入讲解了 OPD 的核心原理、数学形式(反向 KL 散度)以及关键技术变体(G-OPD, OPCD, SDPO)。文章重点分析了 OpenClaw-RL 中特有的 Hindsight-Guided OPD,详细说明了如何从环境反馈的 next-state signal 中提取 Hint,构建增强上下文,并计算 Token 级优势值。最后,文章对比了标准 OPD 与 OpenClaw OPD 在 Teacher 构建、数据来源、KL 方向等方面的差异,并深入辨析了正向 KL 与反向 KL 在蒸馏中的不同行为。
💡 主要观点
- OPD 通过结合 On-Policy 采样与密集监督,解决了传统 RL 和离线 KD 的固有缺陷。 传统 RL 依赖稀疏奖励,训练效率低;离线 KD 存在分布偏移,泛化性差。OPD 让学生模型在自身生成的轨迹上学习,同时接收教师模型的逐 token 监督,兼顾了分布对齐与高效学习。
💬 文章金句
- On-Policy Distillation(策略内蒸馏 / 同策略蒸馏) 是强化学习(RL)与知识蒸馏(KD)融合的训练范式,核心是让学生模型在自身生成的轨迹(On-Policy)上学习,同时获得教师模型提供的逐步骤密集监督信号。
- OPD 本质是带密集隐式奖励的 KL 正则化 RL。
- OpenClaw-RL 的核心观察是:它们其实天然包含了对上一步动作的监督,而且这种监督几乎是'免费'的,因为 agent 本来就在持续收到这些信号。
- 反向 KL - '不要瞎说' (Mode-Seeking / Zero-Avoiding): 惩罚: Q(x) 高但 P(x) 低的地方 → student 不能在 teacher 不认可的地方有高概率。
📊 文章信息
AI 初评:87
来源:罗西的思考
作者:罗西的思考
分类:人工智能
语言:中文
阅读时间:54 分钟
字数:13298
标签: 强化学习, On-Policy Distillation, OpenClaw-RL, 知识蒸馏, RLHF