上海创智学院与智元机器人联合发布 LWD(Learning While Deploying)方法,将机器人部署过程本身变为训练的一部分,通过数据飞轮实现边干边学,在真实场景测试中成功率提升至 95%。
📝 详细摘要
本文深度报道了上海创智学院副教授、智元机器人首席科学家罗剑岚团队提出的 LWD(Learning While Deploying)方法。该方法的核心创新在于打破传统具身智能「离线训练-部署验证」的断裂流程,将部署本身转化为训练的一环。LWD 构建了一个持续运转的数据飞轮:离线强化学习预训练得到初始策略,推送到机器人集群执行;机器人在真实环境中产生的自主轨迹和人工接管数据实时回流;云端 Learner 进行在线强化学习更新;再将优化后的策略同步回机器人集群,如此循环往复。在 16 台双臂机器人组成的真实集群上,针对商超补货、泡茶、榨汁等 8 个复杂任务的测试中,平均成功率达到 95%,长程任务成功率提升最高达 17%,单次任务平均操作周期缩短约 23.75 秒。文章还详细讨论了 LWD 的技术设计选择,包括无筛选数据回流、稀疏奖励函数、人工干预自动打标等关键决策,以及该方法对具身智能产业路径的深远影响。
💡 主要观点
- LWD 将机器人部署过程本身变为训练的一部分,构建持续运转的数据飞轮。 传统路径中部署即为训练终点,真实世界数据被浪费。LWD 让机器人在实际工作中回流数据并反哺训练,形成「部署-数据回流-在线学习-策略更新-再部署」的闭环,使真实世界从测试集变为主训练场。
💬 文章金句
- 把「部署」本身变成训练的一部分。
- 部署不再是训练的终点,而是机器人智能持续提升的起点。
- 谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。
- 稀疏奖励的好处是,它至少能保证最终行为符合预期:成功就是 1,不成功就是 0。
- 机器人不完全等同于语言模型,机器人还需要先把问题定义清楚,包括在哪些部署场景、优化哪些指标,才能进一步讨论 scaling 或涌现。
📊 文章信息
AI 初评:87
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3519
标签: 具身智能, LWD, 机器人学习, 在线强化学习, 数据飞轮