← 回總覽

对话罗剑岚:把机器人“部署”本身变成训练的一部分

📅 2026-05-30 10:00 InfoQ 中文 人工智能 2 分鐘 1661 字 評分: 87
具身智能 LWD 机器人学习 在线强化学习 数据飞轮
📌 一句话摘要 上海创智学院与智元机器人联合发布 LWD(Learning While Deploying)方法,将机器人部署过程本身变为训练的一部分,通过数据飞轮实现边干边学,在真实场景测试中成功率提升至 95%。 📝 详细摘要 本文深度报道了上海创智学院副教授、智元机器人首席科学家罗剑岚团队提出的 LWD(Learning While Deploying)方法。该方法的核心创新在于打破传统具身智能「离线训练-部署验证」的断裂流程,将部署本身转化为训练的一环。LWD 构建了一个持续运转的数据飞轮:离线强化学习预训练得到初始策略,推送到机器人集群执行;机器人在真实环境中产生的自主轨迹和人工

📌 一句话摘要

上海创智学院与智元机器人联合发布 LWD(Learning While Deploying)方法,将机器人部署过程本身变为训练的一部分,通过数据飞轮实现边干边学,在真实场景测试中成功率提升至 95%。

📝 详细摘要

本文深度报道了上海创智学院副教授、智元机器人首席科学家罗剑岚团队提出的 LWD(Learning While Deploying)方法。该方法的核心创新在于打破传统具身智能「离线训练-部署验证」的断裂流程,将部署本身转化为训练的一环。LWD 构建了一个持续运转的数据飞轮:离线强化学习预训练得到初始策略,推送到机器人集群执行;机器人在真实环境中产生的自主轨迹和人工接管数据实时回流;云端 Learner 进行在线强化学习更新;再将优化后的策略同步回机器人集群,如此循环往复。在 16 台双臂机器人组成的真实集群上,针对商超补货、泡茶、榨汁等 8 个复杂任务的测试中,平均成功率达到 95%,长程任务成功率提升最高达 17%,单次任务平均操作周期缩短约 23.75 秒。文章还详细讨论了 LWD 的技术设计选择,包括无筛选数据回流、稀疏奖励函数、人工干预自动打标等关键决策,以及该方法对具身智能产业路径的深远影响。

💡 主要观点

- LWD 将机器人部署过程本身变为训练的一部分,构建持续运转的数据飞轮。 传统路径中部署即为训练终点,真实世界数据被浪费。LWD 让机器人在实际工作中回流数据并反哺训练,形成「部署-数据回流-在线学习-策略更新-再部署」的闭环,使真实世界从测试集变为主训练场。

LWD 采用无筛选数据回流、稀疏奖励和人工干预自动打标等关键技术设计。 所有部署数据全部回流,无人工筛选;使用稀疏奖励避免 reward hacking,并通过 distributional value learning 缓解长程任务信号稀疏问题;人工干预数据根据任务最终结果自动打标,干预率随机器人能力提升而下降。
LWD 最适合率先跑通闭环的场景是介于开放家庭和高度结构化工业之间的「middle ground」。 商超、药店、便利店等半结构化场景既有一定规律性,又存在丰富变化,对泛化性和性能都有要求,是 LWD 落地的理想起点。
大规模部署本身正在成为新的训练资源,部署规模决定数据飞轮能否真正闭环。 罗剑岚指出,当前最核心的瓶颈是成本。只有足够多的机器人在真实场景中持续干活,积累上万小时甚至上万台规模的交互数据,数据飞轮才有机会真正闭环运转。

💬 文章金句

- 把「部署」本身变成训练的一部分。

  • 部署不再是训练的终点,而是机器人智能持续提升的起点。
  • 谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。
  • 稀疏奖励的好处是,它至少能保证最终行为符合预期:成功就是 1,不成功就是 0。
  • 机器人不完全等同于语言模型,机器人还需要先把问题定义清楚,包括在哪些部署场景、优化哪些指标,才能进一步讨论 scaling 或涌现。

📊 文章信息

AI 初评:87

来源:InfoQ 中文

作者:InfoQ 中文

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3519

标签: 具身智能, LWD, 机器人学习, 在线强化学习, 数据飞轮

阅读完整文章

查看原文 → 發佈: 2026-05-30 10:00:00 收錄: 2026-05-30 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。