小红书 AI 平台团队开源了面向全模态与 Agentic 场景设计的大模型强化学习训练引擎 Relax,通过服务化容错架构、异步训练流水线和全模态数据支持,实现了最高 76% 的训练提速。
📝 详细摘要
文章报道了小红书 AI 平台团队开源的新型强化学习训练引擎 Relax。该引擎旨在解决全模态与 Agentic 场景下 RL 训练面临的三大核心挑战:数据异构与 token 爆炸、服务容错与弹性伸缩、以及训练与推理任务间的资源竞争瓶颈。Relax 基于 Megatron-LM 和 SGLang 打造,采用协同设计思路,将 RL 各角色(Actor、Critic、Rollout)封装为独立的 Ray Serve 服务,实现了故障隔离、独立伸缩和生命周期管理。其全异步训练模式通过流式微批调度和 Actor Train 资源分离,相比传统的 Colocate 方案端到端提速最高达 76%。实验表明,在 Qwen3-Omni-30B 等模型上,Relax 能稳定支持图像、文本、音频和视频四种模态的 RL 训练,并在性能上超越了字节跳动的 veRL 框架。
💡 主要观点
- Relax 通过服务化架构统一解决 RL 训练的容错、伸缩与调度难题。 将 Actor、Critic 等角色封装为独立 Ray Serve 服务,实现故障隔离、分钟级恢复和按需弹性伸缩,提升了大规模长时训练的稳定性和运维效率。
💬 文章金句
- 其全异步训练相比 Colocate(训练与推理共用同一批显卡)基线端到端提速 76%。
- 小红书的 Relax 相比字节跳动火山引擎推出的 veRL,取得了 20% 的端到端提速。
- Relax 将每个 RL 角色(Actor、Critic、Rollout 等)封装为独立的 Ray Serve 部署,拥有独立的故障域、资源配额和健康监控。
- 全异步模式下,在线策略相比共用显卡方案性能提升 12%,离线策略提升 76%。
📊 文章信息
AI 初评:87
来源:智东西
作者:智东西
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2637
标签: 强化学习, RL 训练引擎, 全模态, Agentic AI, 小红书