← 回總覽

把 GPT-4o 拉下神坛!星源智联合北大推出 RoboAgent,让 3B VLM 在未知场景跑出 94% 成功率

📅 2026-06-01 15:06 AI前线 人工智能 2 分鐘 1431 字 評分: 87
RoboAgent 具身智能 VLM 任务规划 CVPR 2026
📌 一句话摘要 北京大学与星源智团队提出 RoboAgent 方案,通过能力驱动的具身路径规划,将复杂任务分解为五个基础视觉语言子问题,使 3B VLM 在未知场景下达到 94% 的成功率,超越 GPT-4o 等大模型。 📝 详细摘要 本文介绍了北京大学与星源智团队联合提出的 RoboAgent 方案,旨在解决视觉语言模型在具身任务规划中的实际困境。传统 VLM 在真实家庭环境中面对模糊指令、多轮交互和长程推理时表现不佳。RoboAgent 的核心创新在于将复杂的规划任务分解为五个基础能力模块:探索引导、物体定位、场景描述、动作解码和经验总结,由同一个 VLM 统一调度,不依赖外部工具。团

📌 一句话摘要

北京大学与星源智团队提出 RoboAgent 方案,通过能力驱动的具身路径规划,将复杂任务分解为五个基础视觉语言子问题,使 3B VLM 在未知场景下达到 94% 的成功率,超越 GPT-4o 等大模型。

📝 详细摘要

本文介绍了北京大学与星源智团队联合提出的 RoboAgent 方案,旨在解决视觉语言模型在具身任务规划中的实际困境。传统 VLM 在真实家庭环境中面对模糊指令、多轮交互和长程推理时表现不佳。RoboAgent 的核心创新在于将复杂的规划任务分解为五个基础能力模块:探索引导、物体定位、场景描述、动作解码和经验总结,由同一个 VLM 统一调度,不依赖外部工具。团队设计了三阶段训练路径:先使用专家轨迹进行有监督微调,再通过模型生成数据配合模拟器内部信息进行纠正性训练,最后采用专家诱导策略优化算法进行强化学习。实验结果表明,基于 Qwen2.5-VL-3B 的 RoboAgent 在 ALFWorld 视觉任务上达到 77.6% 的成功率,在文本任务上达到 94.0%,显著超越 GPT-4o 和 SEEA-R1 等方案。该论文已入选 CVPR 2026。

💡 主要观点

- RoboAgent 将复杂具身任务分解为五个基础能力模块,由单一 VLM 统一调度。 五个模块包括探索引导、物体定位、场景描述、动作解码和经验总结,将长程推理转化为 VLM 擅长的视觉语言子问题,降低规划复杂度。

三阶段训练路径有效提升模型规划能力,从模仿学习到自我纠错再到专家引导。 第一阶段使用专家轨迹进行有监督微调,第二阶段利用模型生成数据和模拟器内部信息进行纠正性训练,第三阶段采用 EIPO 算法进行策略优化,逐步提升模型在未知场景的泛化能力。
3B 参数模型在多个基准上超越 GPT-4o 和 7B 模型,验证了能力驱动范式的有效性。 在 ALFWorld 视觉任务上达到 77.6%,文本任务上达到 94.0%,在 EB-ALFRED 上平均成功率 67.0%,均大幅领先现有方案,且具备模态无关的泛化能力。

💬 文章金句

- 把'规划'拆成一系列更小的、VLM 本来就擅长的视觉 - 语言子问题。

  • 现代 VLM 本身具备处理具身推理的所有能力,缺的只是合适的调用机制。
  • RoboAgent 提供了这样一套机制:不依赖外部工具,单一模型,端到端训练。
  • 能力驱动的范式具备模态无关的泛化力,图像能力可以无缝迁移到文本输入。

📊 文章信息

AI 初评:87

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2677

标签: RoboAgent, 具身智能, VLM, 任务规划, CVPR 2026

阅读完整文章

查看原文 → 發佈: 2026-06-01 15:06:00 收錄: 2026-06-02 10:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。