具身智能的下一步：边部署，边进化

📌 一句话摘要

本文深入解读了智元机器人团队最新发布的 LWD（Learning While Deploying）框架，该框架通过真实世界强化学习，让机器人在部署后能自主从执行经验中持续进化，实现「边部署边学习」。

📝 详细摘要

文章围绕智元机器人团队的最新研究成果 LWD 展开，系统性地阐述了其核心思想、技术架构和实验验证。LWD 是一套面向通用机器人策略的「集群规模」强化学习框架，核心在于让预训练好的 VLA 模型在真实世界中自主执行任务、收集数据，并通过在线强化学习循环迭代。文章重点拆解了 LWD 的五个关键亮点：真实世界数据飞轮的建立、对「不完美轨迹」的有效利用、两个核心算法组件 DIVL（分布式隐式价值学习）和 QAM（伴随匹配的 Q 学习）、统一的离线到在线训练流水线，以及在 16 台 G1 双臂机器人上针对 8 项复杂任务（商超补货、长程操作）的验证结果。实验数据显示，随着真实部署数据的回流，模型在各项任务上的成功率和执行效率均有显著提升。文章最后将 LWD 与之前的 SOP 工作联系起来，指出从「能学」到「能自己变强」的路径演进，强调了在线强化学习对于具身智能迈向通用化、自主化的关键意义。

💡 主要观点

- LWD 框架的核心是让机器人在真实部署中通过强化学习实现自主进化。 不同于依赖人工采集数据或事后纠偏的传统方法，LWD 让机器人集群在执行任务时自主收集成功与失败轨迹，通过在线 RL 循环持续优化策略，将部署本身变为训练过程。

LWD 通过 DIVL 和 QAM 两个核心算法组件，解决了将强化学习应用于 VLA 通才策略的难题。 DIVL 通过评估动作价值的分布而非单一数值，提升了评估的鲁棒性；QAM 则通过微调多步生成动作的每一步，实现了对 VLA 模型的有效策略改进。

LWD 能够有效利用「不完美轨迹」，将失败信号转化为学习动力。 传统模仿学习只使用成功示范，而 LWD 的强化学习框架能利用所有轨迹中的因果信号，包括失败和被纠偏的案例，从而大幅扩充可用数据池。

在真实物理集群上的实验验证了 LWD 的有效性，尤其在长程任务上提升显著。 在 16 台 G1 机器人上进行的 8 项任务测试表明，LWD 不仅提升了平均成功率，还减少了执行周期时间和方差，使机器人操作更连贯。

💬 文章金句

- 人形机器人能不能长期存在于现实世界，关键在于它能不能在部署之后继续学习，让真实世界本身变成训练场。

LWD 的本质就是提出了一套方法论，把「机器人变强的来源」从外部人工监督，切换到机器人自己跑出来的交互经验上。
当机器人能从自己每一次执行里继续变强，部署本身就从一个终点，变成了另一段进化的起点。
Online Learning 这一层之上，得有 Online RL 把成功和失败的信号都用起来，这件事在通才机器人策略上才算真正落地。

📊 文章信息

AI 初评：88

来源：十字路口Crossing

作者：十字路口Crossing

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3375

标签：具身智能, 强化学习, LWD, VLA, 机器人学习

阅读完整文章

具身智能的下一步：边部署，边进化

🤖 問 AI