小红书全模态新作开源！最高提速 76%

📌 一句话摘要

小红书 AI 平台团队开源了面向全模态与 Agentic 场景设计的大模型强化学习训练引擎 Relax，通过服务化容错架构、异步训练流水线和全模态数据支持，实现了最高 76% 的训练提速。

📝 详细摘要

文章报道了小红书 AI 平台团队开源的新型强化学习训练引擎 Relax。该引擎旨在解决全模态与 Agentic 场景下 RL 训练面临的三大核心挑战：数据异构与 token 爆炸、服务容错与弹性伸缩、以及训练与推理任务间的资源竞争瓶颈。Relax 基于 Megatron-LM 和 SGLang 打造，采用协同设计思路，将 RL 各角色（Actor、Critic、Rollout）封装为独立的 Ray Serve 服务，实现了故障隔离、独立伸缩和生命周期管理。其全异步训练模式通过流式微批调度和 Actor Train 资源分离，相比传统的 Colocate 方案端到端提速最高达 76%。实验表明，在 Qwen3-Omni-30B 等模型上，Relax 能稳定支持图像、文本、音频和视频四种模态的 RL 训练，并在性能上超越了字节跳动的 veRL 框架。

💡 主要观点

- Relax 通过服务化架构统一解决 RL 训练的容错、伸缩与调度难题。 将 Actor、Critic 等角色封装为独立 Ray Serve 服务，实现故障隔离、分钟级恢复和按需弹性伸缩，提升了大规模长时训练的稳定性和运维效率。

全异步训练流水线与流式微批调度是性能大幅提升的关键。 采用资源分离设计，将推理计算掩盖在训练时间内，并结合流式微批调度消除长尾阻塞，相比共用显卡方案，离线策略训练速度提升高达 76%。

框架原生支持全模态数据与 Agentic 工作流，面向下一代 AI 应用场景。 统一处理图像、音频、视频等多模态输入，并支持多轮推理、工具调用等 Agentic RL 特性，将基础设施与算法关注点剥离，便于业务灵活接入。

💬 文章金句

- 其全异步训练相比 Colocate（训练与推理共用同一批显卡）基线端到端提速 76%。

小红书的 Relax 相比字节跳动火山引擎推出的 veRL，取得了 20% 的端到端提速。
Relax 将每个 RL 角色（Actor、Critic、Rollout 等）封装为独立的 Ray Serve 部署，拥有独立的故障域、资源配额和健康监控。
全异步模式下，在线策略相比共用显卡方案性能提升 12%，离线策略提升 76%。

📊 文章信息

AI 初评：87

来源：智东西

作者：智东西

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2637

标签：强化学习, RL 训练引擎, 全模态, Agentic AI, 小红书

阅读完整文章

小红书全模态新作开源！最高提速 76%

🤖 問 AI