北京大学与星源智团队提出 RoboAgent 方案,通过将复杂具身任务规划分解为五个基础能力模块,采用三阶段训练路径,使 3B 参数的 VLM 在未知场景下达到 94% 的任务成功率,超越 GPT-4o 等大模型。
📝 详细摘要
本文介绍了北京大学与星源智团队联合提出的 RoboAgent 方案,旨在解决视觉-语言模型(VLM)在真实家庭环境中进行具身任务规划(ETP)时面临的挑战。核心思路是将复杂的规划任务分解为一系列更简单的视觉语言子问题,定义了探索引导(EG)、物体定位(OG)、场景描述(SD)、动作解码(AD)和经验总结(ES)五个基础能力模块,所有模块由同一个 VLM 实现,端到端可训练。团队设计了三阶段训练路径:第一阶段使用专家轨迹进行有监督微调,第二阶段利用模型自身生成的数据结合模拟器内部信息进行纠正性训练,第三阶段通过专家诱导策略优化(EIPO)算法进行强化学习。实验结果表明,基于 Qwen2.5-VL-3B 的 RoboAgent 在多个基准测试中表现优异,在 EB-ALFRED 上平均成功率达 67.0%,在 ALFWorld 视觉任务上达 77.6%,在未见过的文本场景中成功率高达 94.0%,均大幅超越 GPT-4o 等更大规模的模型。该论文已被 CVPR 2026 接收。
💡 主要观点
- RoboAgent 将复杂具身任务规划分解为五个基础能力模块,由单一 VLM 统一调度。 这五个模块包括探索引导、物体定位、场景描述、动作解码和经验总结,将长程推理问题转化为 VLM 更擅长的视觉语言子问题,不依赖外部工具,端到端可训练。
💬 文章金句
- RoboAgent 的核心洞察是:把'规划'拆成一系列更小的、VLM 本来就擅长的视觉 - 语言子问题。
- 现代 VLM 本身具备处理具身推理的所有能力,缺的只是合适的调用机制。
- RoboAgent 提供了这样一套机制:不依赖外部工具,单一模型,端到端训练。
📊 文章信息
AI 初评:86
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2517
标签: RoboAgent, 具身智能, VLM, 任务规划, CVPR 2026