← 回總覽

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (1)---基础

📅 2026-05-25 21:02 罗西的思考 人工智能 2 分鐘 1808 字 評分: 88
OpenClaw-RL 强化学习 Agentic RL 在线学习 源码分析
📌 一句话摘要 本文是 OpenClaw-RL 强化学习框架的源码阅读笔记,深入分析了其通过下一状态信号实现 Agent 在线学习的核心机制、架构设计和三种训练方法。 📝 详细摘要 本文是作者对 OpenClaw-RL 框架的源码阅读笔记系列的第一篇,旨在通过源码分析梳理强化学习相关概念。文章首先介绍了 OpenClaw-RL 的核心理念:将 Agent 每次交互后收到的下一状态信号(用户回复、工具输出等)转化为在线学习信号,而非仅作为上下文后丢弃。随后详细阐述了 Agentic RL 相比传统 LLM-RL 的核心难点,包括奖励信号稀疏延迟、长序列信用分配、探索效率、环境多样性和安全性等

📌 一句话摘要

本文是 OpenClaw-RL 强化学习框架的源码阅读笔记,深入分析了其通过下一状态信号实现 Agent 在线学习的核心机制、架构设计和三种训练方法。

📝 详细摘要

本文是作者对 OpenClaw-RL 框架的源码阅读笔记系列的第一篇,旨在通过源码分析梳理强化学习相关概念。文章首先介绍了 OpenClaw-RL 的核心理念:将 Agent 每次交互后收到的下一状态信号(用户回复、工具输出等)转化为在线学习信号,而非仅作为上下文后丢弃。随后详细阐述了 Agentic RL 相比传统 LLM-RL 的核心难点,包括奖励信号稀疏延迟、长序列信用分配、探索效率、环境多样性和安全性等,并梳理了业界解法。文章重点剖析了 OpenClaw-RL 的三种训练模式:Binary RL(二元强化学习,基于 PRM 评分和 GRPO)、OPD(后见之明引导的在线策略蒸馏,提供 Token 级方向性监督)以及 Combined(两者联合)。文章还深入分析了框架的异步解耦架构设计,包括双缓冲异步状态机、权重同步机制、被动 Rollout 适配等关键技术细节,并对比了 Track 1(个性化 Agent)和 Track 2(通用 Agent)的奖励来源差异。

💡 主要观点

- OpenClaw-RL 的核心创新是将 Agent 交互中的下一状态信号转化为在线学习信号。 传统系统将用户回复、工具输出等下一状态仅作为上下文使用后丢弃,OpenClaw-RL 则将其系统性地回收为评估性和指导性两类训练信号,实现边用边学。

框架提供三种互补的训练方法:Binary RL、OPD 和 Combined。 Binary RL 通过 PRM 评分提供高覆盖但低分辨率的标量奖励;OPD 通过 hint 提取和 teacher 蒸馏提供低覆盖但高分辨率的 Token 级方向性监督;Combined 将两者加权合并,兼顾覆盖率和精度。
异步解耦架构是框架的核心工程挑战,通过双缓冲状态机和被动 Rollout 实现。 推理、环境、裁判和训练四个循环完全解耦互不阻塞,通过双缓冲设计处理异步时序问题,并通过被动 Rollout 适配用户行为驱动的数据流,与标准 RL 框架的主动采样模式形成对比。
PRM 的设计精妙之处在于区分 next_state 的 role 并明确负面信号特征。 PRM 的评分 prompt 明确区分 user 和 tool 两种 next_state 类型,并定义了用户要求重做、请求纠正、改述重申等三类负面信号触发条件,通过多数投票消噪。

💬 文章金句

- LLM-RL 优化的是'回答好不好';而 Agentic RL 优化的是'整个系统做事情做得好不好'。

  • 胶水代码负责让这个'餐厅'正常运转:确保厨师学到的菜谱及时更新,确保反馈被正确归因到正确的菜品,确保后厨繁忙时前台能优雅地暂停取菜。
  • OpenClaw-RL 的个性化目标(通过 RL 优化策略权重),在本质上是'把用户偏好/对话经验写入模型权重',这是一种 Memory Consolidation(记忆固化)。
  • Binary RL 的优点是高覆盖、低分辨率;OPD 则是低覆盖、高分辨率。
  • PRM 充当'理解人类意图的翻译器',把模糊反馈转化为可训练的标量 reward。

📊 文章信息

AI 初评:88

来源:罗西的思考

作者:罗西的思考

分类:人工智能

语言:中文

阅读时间:43 分钟

字数:10576

标签: OpenClaw-RL, 强化学习, Agentic RL, 在线学习, 源码分析

阅读完整文章

查看原文 → 發佈: 2026-05-25 21:02:00 收錄: 2026-05-26 04:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。