← 回總覽

小红书全模态新作开源!最高提速 76%

📅 2026-04-15 18:57 智东西 人工智能 2 分鐘 1348 字 評分: 87
强化学习 RL 训练引擎 全模态 Agentic AI 小红书
📌 一句话摘要 小红书 AI 平台团队开源了面向全模态与 Agentic 场景设计的大模型强化学习训练引擎 Relax,通过服务化容错架构、异步训练流水线和全模态数据支持,实现了最高 76% 的训练提速。 📝 详细摘要 文章报道了小红书 AI 平台团队开源的新型强化学习训练引擎 Relax。该引擎旨在解决全模态与 Agentic 场景下 RL 训练面临的三大核心挑战:数据异构与 token 爆炸、服务容错与弹性伸缩、以及训练与推理任务间的资源竞争瓶颈。Relax 基于 Megatron-LM 和 SGLang 打造,采用协同设计思路,将 RL 各角色(Actor、Critic、Rollou

📌 一句话摘要

小红书 AI 平台团队开源了面向全模态与 Agentic 场景设计的大模型强化学习训练引擎 Relax,通过服务化容错架构、异步训练流水线和全模态数据支持,实现了最高 76% 的训练提速。

📝 详细摘要

文章报道了小红书 AI 平台团队开源的新型强化学习训练引擎 Relax。该引擎旨在解决全模态与 Agentic 场景下 RL 训练面临的三大核心挑战:数据异构与 token 爆炸、服务容错与弹性伸缩、以及训练与推理任务间的资源竞争瓶颈。Relax 基于 Megatron-LM 和 SGLang 打造,采用协同设计思路,将 RL 各角色(Actor、Critic、Rollout)封装为独立的 Ray Serve 服务,实现了故障隔离、独立伸缩和生命周期管理。其全异步训练模式通过流式微批调度和 Actor Train 资源分离,相比传统的 Colocate 方案端到端提速最高达 76%。实验表明,在 Qwen3-Omni-30B 等模型上,Relax 能稳定支持图像、文本、音频和视频四种模态的 RL 训练,并在性能上超越了字节跳动的 veRL 框架。

💡 主要观点

- Relax 通过服务化架构统一解决 RL 训练的容错、伸缩与调度难题。 将 Actor、Critic 等角色封装为独立 Ray Serve 服务,实现故障隔离、分钟级恢复和按需弹性伸缩,提升了大规模长时训练的稳定性和运维效率。

全异步训练流水线与流式微批调度是性能大幅提升的关键。 采用资源分离设计,将推理计算掩盖在训练时间内,并结合流式微批调度消除长尾阻塞,相比共用显卡方案,离线策略训练速度提升高达 76%。
框架原生支持全模态数据与 Agentic 工作流,面向下一代 AI 应用场景。 统一处理图像、音频、视频等多模态输入,并支持多轮推理、工具调用等 Agentic RL 特性,将基础设施与算法关注点剥离,便于业务灵活接入。

💬 文章金句

- 其全异步训练相比 Colocate(训练与推理共用同一批显卡)基线端到端提速 76%。

  • 小红书的 Relax 相比字节跳动火山引擎推出的 veRL,取得了 20% 的端到端提速。
  • Relax 将每个 RL 角色(Actor、Critic、Rollout 等)封装为独立的 Ray Serve 部署,拥有独立的故障域、资源配额和健康监控。
  • 全异步模式下,在线策略相比共用显卡方案性能提升 12%,离线策略提升 76%。

📊 文章信息

AI 初评:87

来源:智东西

作者:智东西

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2637

标签: 强化学习, RL 训练引擎, 全模态, Agentic AI, 小红书

阅读完整文章

查看原文 → 發佈: 2026-04-15 18:57:00 收錄: 2026-04-16 00:00:05

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。