机器人运控训练步入分钟级时代！清华 AIR 开源 UniLab：3 分钟训好人形，速度暴涨 10 倍，Mac 上也能跑

📌 一句话摘要

清华大学 AIR 团队开源 UniLab 机器人强化学习训练架构，通过 CPU 仿真与 GPU 训练的异步异构设计，实现 3-10 倍训练效率提升，并支持 Mac 等跨平台运行。

📝 详细摘要

清华大学智能产业研究院（AIR）DISCOVER Lab 联合多所高校及企业，正式开源 UniLab 机器人强化学习训练架构。该架构打破了传统方案将仿真与训练全部绑定在 GPU 上的范式，采用 CPU 高效仿真与 GPU 策略训练的异步异构设计，通过并行解耦和数据流高度重叠，消除了硬件资源闲置和跨总线数据传输延迟。在相同硬件条件下，UniLab 实现端到端训练速度比传统方案快 3 至 10 倍，在 4090+9950×3d 系统上，12 秒即可训练四足行走，3 分钟让 G1 人形机器人学会走路。UniLab 原生支持 CUDA、Apple、AMD 及 Intel 等多种后端，适配 PPO、APPO、SAC、TD3 等主流强化学习算法，并已在六类真机任务上完成验证，覆盖四足行走、人形全身运动追踪及灵巧手操作。项目已正式开源，代码仓库和论文均已发布。

💡 主要观点

- UniLab 采用 CPU 仿真与 GPU 训练的异步异构架构，打破传统 GPU 全管线绑定范式。 传统方案将物理步进与策略学习同步串行执行在 GPU 上，导致资源闲置。UniLab 将仿真解耦到多核 CPU，GPU 专注策略网络更新，通过共享内存建立无锁缓冲区实现数据流高度重叠，消除跨总线延迟。

端到端训练速度提升 3 至 10 倍，实现分钟级机器人运控训练。 在相同硬件基准测试中，UniLab 达到相同目标奖励的训练速度比传统方案快 3-10 倍。在 4090+9950×3d 系统上，12 秒训好四足行走，3 分钟让人形 G1 学会走路。

跨平台全后端兼容，Mac 本地训练人形机器人成为现实。 UniLab 原生支持 CUDA、Apple、AMD 及 Intel 等多种后端。在 Mac（Apple Silicon）上利用统一内存架构的低延迟特性，CPU 仿真与 GPU 学习间的数据传输无需跨越 PCIe 总线，大幅降低开销。

已完成六类真机任务验证，覆盖四足、人形及灵巧手操作。 团队将 UniLab 训练的策略成功部署到四足行走、人形全身运动追踪（含翻跟头、攀爬）以及灵巧手操作等任务上，完成了从仿真到真机的完整闭环验证。

💬 文章金句

- UniLab 另辟蹊径，通过大胆重构系统结构，打破了'GPU 包揽全部'的潜规则，为具身智能打造了全新一代'CPU 高效仿真+GPU 策略训练'的异构高吞吐训练底座。

在相同硬件的基准测试中，UniLab 达到相同目标奖励的端到端训练速度比传统方案快 3 至 10 倍。
UniLab 彻底去除了对特定硬件的硬编码依赖，让机器人强化学习训练走向大众化。
4090+9950×3d 的系统上，12 秒训练好四足行走，3 分钟人形 G1 学会走路，让机器人运控训练迈向'分钟级'时代。

📊 文章信息

AI 初评：87

来源：量子位

作者：思邈

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1590

标签：机器人强化学习, UniLab, 清华AIR, CPU仿真, GPU训练

阅读完整文章

机器人运控训练步入分钟级时代！清华 AIR 开源 UniLab：3 分钟训好人形，速度暴涨 10 倍，Mac 上也能跑

🤖 問 AI