南京大学 LAMDA 实验室提出 VLA-MBPO 框架,通过统一多模态世界模型实现机器人的「脑内模拟」训练,有效解决了具身智能在现实世界中训练成本高、安全性差及长程任务误差累积等难题。
📝 详细摘要
本文深度解析了南京大学与 Mila 实验室合作的最新研究成果 VLA-MBPO。该研究针对当前具身智能(VLA 模型)过度依赖模仿学习、在现实世界进行强化学习成本极高且难以规模化的痛点,提出了一种基于世界模型的强化学习后训练框架。核心创新包括:1) 使用统一多模态模型(UMM)作为骨干,同时预测未来观测和奖励,显著提升了推理效率与奖励判断准确性;2) 引入交错式解码(Interleaved View Decoding)设计,确保头部与腕部多视角观测的空间一致性;3) 采用短分支推演(Chunk-level Branched Rollout)策略,通过在真实经验局部进行短距离想象,有效抑制了长程任务中的误差累积。实验证明,该方法在 LIBERO 仿真套件及多种真实机器人任务(如插电缆、叠毛巾、擦白板)中均表现出显著的性能提升和泛化能力,为 VLA 模型的后训练提供了一套切实可行的工程范式。
💡 主要观点
- 具身智能正从单纯的模仿学习转向基于世界模型的强化学习。 模仿学习难以处理复杂长程任务和环境扰动,而强化学习能探索最优解,但真机训练成本和风险极高,世界模型提供了安全的「脑内模拟」环境。
💬 文章金句
- 机器人并不缺一个更会模仿的模型,缺的是一个能让它安全、高效「先想一遍再动手」的训练机制。
- 世界模型不必做到绝对完美,系统就有机会稳定工作。
- 大规模 VLA 负责提供通用感知、语言理解和动作先验;世界模型负责提供一个安全、高效、可反复试错的想象环境;强化学习则在这个环境里把策略往上再推一层。
📊 文章信息
AI 评分:87
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:34 分钟
字数:8293
标签: 具身智能, VLA, 世界模型, 强化学习, 南京大学