← 回總覽

具身智能的下一步:边部署,边进化

📅 2026-04-30 17:15 十字路口Crossing 人工智能 2 分鐘 1614 字 評分: 88
具身智能 强化学习 LWD VLA 机器人学习
📌 一句话摘要 本文深入解读了智元机器人团队最新发布的 LWD(Learning While Deploying)框架,该框架通过真实世界强化学习,让机器人在部署后能自主从执行经验中持续进化,实现「边部署边学习」。 📝 详细摘要 文章围绕智元机器人团队的最新研究成果 LWD 展开,系统性地阐述了其核心思想、技术架构和实验验证。LWD 是一套面向通用机器人策略的「集群规模」强化学习框架,核心在于让预训练好的 VLA 模型在真实世界中自主执行任务、收集数据,并通过在线强化学习循环迭代。文章重点拆解了 LWD 的五个关键亮点:真实世界数据飞轮的建立、对「不完美轨迹」的有效利用、两个核心算法组件

📌 一句话摘要

本文深入解读了智元机器人团队最新发布的 LWD(Learning While Deploying)框架,该框架通过真实世界强化学习,让机器人在部署后能自主从执行经验中持续进化,实现「边部署边学习」。

📝 详细摘要

文章围绕智元机器人团队的最新研究成果 LWD 展开,系统性地阐述了其核心思想、技术架构和实验验证。LWD 是一套面向通用机器人策略的「集群规模」强化学习框架,核心在于让预训练好的 VLA 模型在真实世界中自主执行任务、收集数据,并通过在线强化学习循环迭代。文章重点拆解了 LWD 的五个关键亮点:真实世界数据飞轮的建立、对「不完美轨迹」的有效利用、两个核心算法组件 DIVL(分布式隐式价值学习)和 QAM(伴随匹配的 Q 学习)、统一的离线到在线训练流水线,以及在 16 台 G1 双臂机器人上针对 8 项复杂任务(商超补货、长程操作)的验证结果。实验数据显示,随着真实部署数据的回流,模型在各项任务上的成功率和执行效率均有显著提升。文章最后将 LWD 与之前的 SOP 工作联系起来,指出从「能学」到「能自己变强」的路径演进,强调了在线强化学习对于具身智能迈向通用化、自主化的关键意义。

💡 主要观点

- LWD 框架的核心是让机器人在真实部署中通过强化学习实现自主进化。 不同于依赖人工采集数据或事后纠偏的传统方法,LWD 让机器人集群在执行任务时自主收集成功与失败轨迹,通过在线 RL 循环持续优化策略,将部署本身变为训练过程。

LWD 通过 DIVL 和 QAM 两个核心算法组件,解决了将强化学习应用于 VLA 通才策略的难题。 DIVL 通过评估动作价值的分布而非单一数值,提升了评估的鲁棒性;QAM 则通过微调多步生成动作的每一步,实现了对 VLA 模型的有效策略改进。
LWD 能够有效利用「不完美轨迹」,将失败信号转化为学习动力。 传统模仿学习只使用成功示范,而 LWD 的强化学习框架能利用所有轨迹中的因果信号,包括失败和被纠偏的案例,从而大幅扩充可用数据池。
在真实物理集群上的实验验证了 LWD 的有效性,尤其在长程任务上提升显著。 在 16 台 G1 机器人上进行的 8 项任务测试表明,LWD 不仅提升了平均成功率,还减少了执行周期时间和方差,使机器人操作更连贯。

💬 文章金句

- 人形机器人能不能长期存在于现实世界,关键在于它能不能在部署之后继续学习,让真实世界本身变成训练场。

  • LWD 的本质就是提出了一套方法论,把「机器人变强的来源」从外部人工监督,切换到机器人自己跑出来的交互经验上。
  • 当机器人能从自己每一次执行里继续变强,部署本身就从一个终点,变成了另一段进化的起点。
  • Online Learning 这一层之上,得有 Online RL 把成功和失败的信号都用起来,这件事在通才机器人策略上才算真正落地。

📊 文章信息

AI 初评:88

来源:十字路口Crossing

作者:十字路口Crossing

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3375

标签: 具身智能, 强化学习, LWD, VLA, 机器人学习

阅读完整文章

查看原文 → 發佈: 2026-04-30 17:15:00 收錄: 2026-04-30 22:00:56

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。