北京大学与星源智团队提出 RoboAgent 方案,通过能力驱动的具身路径规划,将复杂任务分解为五个基础视觉语言子问题,使 3B VLM 在未知场景下达到 94% 的成功率,超越 GPT-4o 等大模型。
📝 详细摘要
本文介绍了北京大学与星源智团队联合提出的 RoboAgent 方案,旨在解决视觉语言模型在具身任务规划中的实际困境。传统 VLM 在真实家庭环境中面对模糊指令、多轮交互和长程推理时表现不佳。RoboAgent 的核心创新在于将复杂的规划任务分解为五个基础能力模块:探索引导、物体定位、场景描述、动作解码和经验总结,由同一个 VLM 统一调度,不依赖外部工具。团队设计了三阶段训练路径:先使用专家轨迹进行有监督微调,再通过模型生成数据配合模拟器内部信息进行纠正性训练,最后采用专家诱导策略优化算法进行强化学习。实验结果表明,基于 Qwen2.5-VL-3B 的 RoboAgent 在 ALFWorld 视觉任务上达到 77.6% 的成功率,在文本任务上达到 94.0%,显著超越 GPT-4o 和 SEEA-R1 等方案。该论文已入选 CVPR 2026。
💡 主要观点
- RoboAgent 将复杂具身任务分解为五个基础能力模块,由单一 VLM 统一调度。 五个模块包括探索引导、物体定位、场景描述、动作解码和经验总结,将长程推理转化为 VLM 擅长的视觉语言子问题,降低规划复杂度。
💬 文章金句
- 把'规划'拆成一系列更小的、VLM 本来就擅长的视觉 - 语言子问题。
- 现代 VLM 本身具备处理具身推理的所有能力,缺的只是合适的调用机制。
- RoboAgent 提供了这样一套机制:不依赖外部工具,单一模型,端到端训练。
- 能力驱动的范式具备模态无关的泛化力,图像能力可以无缝迁移到文本输入。
📊 文章信息
AI 初评:87
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2677
标签: RoboAgent, 具身智能, VLM, 任务规划, CVPR 2026