别再拿真机炼丹！南大终结「肉身排雷」，机器人 0 成本脑内练满级

📌 一句话摘要

南京大学 LAMDA 实验室提出 VLA-MBPO 框架，通过统一多模态世界模型实现机器人的「脑内模拟」训练，有效解决了具身智能在现实世界中训练成本高、安全性差及长程任务误差累积等难题。

📝 详细摘要

本文深度解析了南京大学与 Mila 实验室合作的最新研究成果 VLA-MBPO。该研究针对当前具身智能（VLA 模型）过度依赖模仿学习、在现实世界进行强化学习成本极高且难以规模化的痛点，提出了一种基于世界模型的强化学习后训练框架。核心创新包括：1) 使用统一多模态模型（UMM）作为骨干，同时预测未来观测和奖励，显著提升了推理效率与奖励判断准确性；2) 引入交错式解码（Interleaved View Decoding）设计，确保头部与腕部多视角观测的空间一致性；3) 采用短分支推演（Chunk-level Branched Rollout）策略，通过在真实经验局部进行短距离想象，有效抑制了长程任务中的误差累积。实验证明，该方法在 LIBERO 仿真套件及多种真实机器人任务（如插电缆、叠毛巾、擦白板）中均表现出显著的性能提升和泛化能力，为 VLA 模型的后训练提供了一套切实可行的工程范式。

💡 主要观点

- 具身智能正从单纯的模仿学习转向基于世界模型的强化学习。 模仿学习难以处理复杂长程任务和环境扰动，而强化学习能探索最优解，但真机训练成本和风险极高，世界模型提供了安全的「脑内模拟」环境。

统一多模态模型（UMM）是构建实用世界模型的关键。 通过将视觉、文本和动作统一建模，UMM 能同时预测未来状态和奖励，并支持跳帧预测，显著提升了推理效率和奖励判断的准确率。

交错式解码解决了多视角一致性这一机器人特有的硬约束。 先预测头部全局视角再预测腕部局部细节，确保了不同摄像头观测到的物理世界在逻辑上是统一的，避免了策略被矛盾信息误导。

短分支推演策略有效抑制了世界模型的误差累积死穴。 放弃长程脑补，转而从真实经验的中间状态出发进行短距离推演，在保证探索空间的同时极大降低了价值误差。

💬 文章金句

- 机器人并不缺一个更会模仿的模型，缺的是一个能让它安全、高效「先想一遍再动手」的训练机制。

世界模型不必做到绝对完美，系统就有机会稳定工作。
大规模 VLA 负责提供通用感知、语言理解和动作先验；世界模型负责提供一个安全、高效、可反复试错的想象环境；强化学习则在这个环境里把策略往上再推一层。

📊 文章信息

AI 评分：87

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：34 分钟

字数：8293

标签：具身智能, VLA, 世界模型, 强化学习, 南京大学

阅读完整文章

别再拿真机炼丹！南大终结「肉身排雷」，机器人 0 成本脑内练满级

🤖 問 AI