清华大学 AIR 团队开源 UniLab 机器人强化学习训练架构,通过 CPU 仿真与 GPU 训练的异步异构设计,实现 3-10 倍训练效率提升,并支持 Mac 等跨平台运行。
📝 详细摘要
清华大学智能产业研究院(AIR)DISCOVER Lab 联合多所高校及企业,正式开源 UniLab 机器人强化学习训练架构。该架构打破了传统方案将仿真与训练全部绑定在 GPU 上的范式,采用 CPU 高效仿真与 GPU 策略训练的异步异构设计,通过并行解耦和数据流高度重叠,消除了硬件资源闲置和跨总线数据传输延迟。在相同硬件条件下,UniLab 实现端到端训练速度比传统方案快 3 至 10 倍,在 4090+9950×3d 系统上,12 秒即可训练四足行走,3 分钟让 G1 人形机器人学会走路。UniLab 原生支持 CUDA、Apple、AMD 及 Intel 等多种后端,适配 PPO、APPO、SAC、TD3 等主流强化学习算法,并已在六类真机任务上完成验证,覆盖四足行走、人形全身运动追踪及灵巧手操作。项目已正式开源,代码仓库和论文均已发布。
💡 主要观点
- UniLab 采用 CPU 仿真与 GPU 训练的异步异构架构,打破传统 GPU 全管线绑定范式。 传统方案将物理步进与策略学习同步串行执行在 GPU 上,导致资源闲置。UniLab 将仿真解耦到多核 CPU,GPU 专注策略网络更新,通过共享内存建立无锁缓冲区实现数据流高度重叠,消除跨总线延迟。
💬 文章金句
- UniLab 另辟蹊径,通过大胆重构系统结构,打破了'GPU 包揽全部'的潜规则,为具身智能打造了全新一代'CPU 高效仿真+GPU 策略训练'的异构高吞吐训练底座。
- 在相同硬件的基准测试中,UniLab 达到相同目标奖励的端到端训练速度比传统方案快 3 至 10 倍。
- UniLab 彻底去除了对特定硬件的硬编码依赖,让机器人强化学习训练走向大众化。
- 4090+9950×3d 的系统上,12 秒训练好四足行走,3 分钟人形 G1 学会走路,让机器人运控训练迈向'分钟级'时代。
📊 文章信息
AI 初评:87
来源:量子位
作者:思邈
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1590
标签: 机器人强化学习, UniLab, 清华AIR, CPU仿真, GPU训练