把 GPT-4o 拉下神坛！星源智联合北大推出 RoboAgent，让 3B VLM 在未知场景跑出 94% 成功率

📌 一句话摘要

北京大学与星源智团队提出 RoboAgent 方案，通过能力驱动的具身路径规划，将复杂任务分解为五个基础视觉语言子问题，使 3B VLM 在未知场景下达到 94% 的成功率，超越 GPT-4o 等大模型。

📝 详细摘要

本文介绍了北京大学与星源智团队联合提出的 RoboAgent 方案，旨在解决视觉语言模型在具身任务规划中的实际困境。传统 VLM 在真实家庭环境中面对模糊指令、多轮交互和长程推理时表现不佳。RoboAgent 的核心创新在于将复杂的规划任务分解为五个基础能力模块：探索引导、物体定位、场景描述、动作解码和经验总结，由同一个 VLM 统一调度，不依赖外部工具。团队设计了三阶段训练路径：先使用专家轨迹进行有监督微调，再通过模型生成数据配合模拟器内部信息进行纠正性训练，最后采用专家诱导策略优化算法进行强化学习。实验结果表明，基于 Qwen2.5-VL-3B 的 RoboAgent 在 ALFWorld 视觉任务上达到 77.6% 的成功率，在文本任务上达到 94.0%，显著超越 GPT-4o 和 SEEA-R1 等方案。该论文已入选 CVPR 2026。

💡 主要观点

- RoboAgent 将复杂具身任务分解为五个基础能力模块，由单一 VLM 统一调度。 五个模块包括探索引导、物体定位、场景描述、动作解码和经验总结，将长程推理转化为 VLM 擅长的视觉语言子问题，降低规划复杂度。

三阶段训练路径有效提升模型规划能力，从模仿学习到自我纠错再到专家引导。 第一阶段使用专家轨迹进行有监督微调，第二阶段利用模型生成数据和模拟器内部信息进行纠正性训练，第三阶段采用 EIPO 算法进行策略优化，逐步提升模型在未知场景的泛化能力。

3B 参数模型在多个基准上超越 GPT-4o 和 7B 模型，验证了能力驱动范式的有效性。 在 ALFWorld 视觉任务上达到 77.6%，文本任务上达到 94.0%，在 EB-ALFRED 上平均成功率 67.0%，均大幅领先现有方案，且具备模态无关的泛化能力。

💬 文章金句

- 把'规划'拆成一系列更小的、VLM 本来就擅长的视觉 - 语言子问题。

现代 VLM 本身具备处理具身推理的所有能力，缺的只是合适的调用机制。
RoboAgent 提供了这样一套机制：不依赖外部工具，单一模型，端到端训练。
能力驱动的范式具备模态无关的泛化力，图像能力可以无缝迁移到文本输入。

📊 文章信息

AI 初评：87

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2677

标签： RoboAgent, 具身智能, VLM, 任务规划, CVPR 2026

阅读完整文章

把 GPT-4o 拉下神坛！星源智联合北大推出 RoboAgent，让 3B VLM 在未知场景跑出 94% 成功率

🤖 問 AI