【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (4)--- 系统架构

📌 一句话摘要

本文深入解析了 OpenClaw-RL 强化学习框架的系统架构，详细阐述了其四大异步组件、基于 Slime 的插件化集成机制以及三种 Advantage 注入方式的实现原理。

📝 详细摘要

本文是 OpenClaw-RL 源码阅读笔记系列的第四篇，聚焦于系统架构。文章首先介绍了 OpenClaw-RL 的三种主要模式（Binary RL、OPD、Combine）及其 Advantage 来源，并总结了统一 PPO 框架、数据驱动分流、无额外模型和异步架构等关键设计原则。随后，文章详细剖析了系统的四大组件：Policy Serving、Environment、Reward Judging 和 Policy Training，并给出了具体的 GPU 分配方案。文章重点分析了 Slime 框架在其中的核心作用，包括其插件化架构、四个关键扩展点以及如何通过自定义函数实现被动等待的 Rollout 模式。最后，文章通过数据流图、模块交互图和完整时序图，清晰展示了从用户请求到模型训练更新的完整异步流程。

💡 主要观点

- OpenClaw-RL 采用统一的 PPO 框架，通过三种不同的 Advantage 注入方式实现不同训练范式。 Binary RL 使用 GRPO 广播奖励；OPD 使用 teacher 模型的 per-token log-probs 与 rollout log-probs 的差值；Combine 则加权融合两者，提供最灵活的训练信号。

系统由四个异步解耦的组件构成，实现模型服务、环境交互、奖励评估和策略训练的并行运行。 Policy Serving 负责模型推理，Environment 由真实用户和 HTTP 协议构成，Reward Judging 通过 PRM 或 OPD 生成反馈，Policy Training 基于 Megatron 进行分布式训练，各组件互不阻塞。

Slime 框架通过插件化架构和四个关键扩展点，使 OpenClaw-RL 无需修改核心代码即可实现定制化训练流程。 通过自定义 rollout 函数、生成函数、奖励函数和损失函数，OpenClaw-RL 将 Slime 的主动采样模式改造为被动等待真实用户对话的在线学习模式。

OpenClaw-RL 的核心创新在于将真实用户交互作为训练数据源，实现无感知的在线持续学习。 系统通过 HTTP 头信息（如 X-Session-Id）管理会话状态，利用 next_state 自动生成 reward 信号，无需人工标注，对话数据完全私有，模型在服务过程中持续进化。

💬 文章金句

- OpenClaw-RL 的系统设计是四个异步解耦的循环——policy serving、environment hosting、reward judging、policy training 同时运行、互不阻塞，因此模型可以一边持续服务，一边从刚刚发生的真实交互中在线学习。

Slime 框架原本假设 rollout 是主动的 (给模型一个 prompt，模型生成 response)。OpenClaw-RL 把它改成被动等待 (等真实用户对话产生样本)。
核心设计思路：API Server 负责'算好所有原材料'(reward、teacher_lp、rollout_lp)，Slime 只负责'组装 advantage + 算 loss'。

📊 文章信息

AI 初评：86

来源：罗西的思考

作者：罗西的思考

分类：人工智能

语言：中文

阅读时间：46 分钟

字数：11284

标签： OpenClaw-RL, 强化学习, 系统架构, PPO, GRPO

阅读完整文章

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (4)--- 系统架构

🤖 問 AI