← 回總覽

机器人运控训练步入分钟级时代!清华 AIR 开源 UniLab:3 分钟训好人形,速度暴涨 10 倍,Mac 上也能跑

📅 2026-06-02 11:57 思邈 人工智能 2 分鐘 1677 字 評分: 87
机器人强化学习 UniLab 清华AIR CPU仿真 GPU训练
📌 一句话摘要 清华大学 AIR 团队开源 UniLab 机器人强化学习训练架构,通过 CPU 仿真与 GPU 训练的异步异构设计,实现 3-10 倍训练效率提升,并支持 Mac 等跨平台运行。 📝 详细摘要 清华大学智能产业研究院(AIR)DISCOVER Lab 联合多所高校及企业,正式开源 UniLab 机器人强化学习训练架构。该架构打破了传统方案将仿真与训练全部绑定在 GPU 上的范式,采用 CPU 高效仿真与 GPU 策略训练的异步异构设计,通过并行解耦和数据流高度重叠,消除了硬件资源闲置和跨总线数据传输延迟。在相同硬件条件下,UniLab 实现端到端训练速度比传统方案快 3 至

📌 一句话摘要

清华大学 AIR 团队开源 UniLab 机器人强化学习训练架构,通过 CPU 仿真与 GPU 训练的异步异构设计,实现 3-10 倍训练效率提升,并支持 Mac 等跨平台运行。

📝 详细摘要

清华大学智能产业研究院(AIR)DISCOVER Lab 联合多所高校及企业,正式开源 UniLab 机器人强化学习训练架构。该架构打破了传统方案将仿真与训练全部绑定在 GPU 上的范式,采用 CPU 高效仿真与 GPU 策略训练的异步异构设计,通过并行解耦和数据流高度重叠,消除了硬件资源闲置和跨总线数据传输延迟。在相同硬件条件下,UniLab 实现端到端训练速度比传统方案快 3 至 10 倍,在 4090+9950×3d 系统上,12 秒即可训练四足行走,3 分钟让 G1 人形机器人学会走路。UniLab 原生支持 CUDA、Apple、AMD 及 Intel 等多种后端,适配 PPO、APPO、SAC、TD3 等主流强化学习算法,并已在六类真机任务上完成验证,覆盖四足行走、人形全身运动追踪及灵巧手操作。项目已正式开源,代码仓库和论文均已发布。

💡 主要观点

- UniLab 采用 CPU 仿真与 GPU 训练的异步异构架构,打破传统 GPU 全管线绑定范式。 传统方案将物理步进与策略学习同步串行执行在 GPU 上,导致资源闲置。UniLab 将仿真解耦到多核 CPU,GPU 专注策略网络更新,通过共享内存建立无锁缓冲区实现数据流高度重叠,消除跨总线延迟。

端到端训练速度提升 3 至 10 倍,实现分钟级机器人运控训练。 在相同硬件基准测试中,UniLab 达到相同目标奖励的训练速度比传统方案快 3-10 倍。在 4090+9950×3d 系统上,12 秒训好四足行走,3 分钟让人形 G1 学会走路。
跨平台全后端兼容,Mac 本地训练人形机器人成为现实。 UniLab 原生支持 CUDA、Apple、AMD 及 Intel 等多种后端。在 Mac(Apple Silicon)上利用统一内存架构的低延迟特性,CPU 仿真与 GPU 学习间的数据传输无需跨越 PCIe 总线,大幅降低开销。
已完成六类真机任务验证,覆盖四足、人形及灵巧手操作。 团队将 UniLab 训练的策略成功部署到四足行走、人形全身运动追踪(含翻跟头、攀爬)以及灵巧手操作等任务上,完成了从仿真到真机的完整闭环验证。

💬 文章金句

- UniLab 另辟蹊径,通过大胆重构系统结构,打破了'GPU 包揽全部'的潜规则,为具身智能打造了全新一代'CPU 高效仿真+GPU 策略训练'的异构高吞吐训练底座。

  • 在相同硬件的基准测试中,UniLab 达到相同目标奖励的端到端训练速度比传统方案快 3 至 10 倍。
  • UniLab 彻底去除了对特定硬件的硬编码依赖,让机器人强化学习训练走向大众化。
  • 4090+9950×3d 的系统上,12 秒训练好四足行走,3 分钟人形 G1 学会走路,让机器人运控训练迈向'分钟级'时代。

📊 文章信息

AI 初评:87

来源:量子位

作者:思邈

分类:人工智能

语言:中文

阅读时间:7 分钟

字数:1590

标签: 机器人强化学习, UniLab, 清华AIR, CPU仿真, GPU训练

阅读完整文章

查看原文 → 發佈: 2026-06-02 11:57:21 收錄: 2026-06-02 14:00:48

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。