复旦与通义联合提出 ToolCUA 训练范式,通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题,在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。
📝 详细摘要
本文介绍了复旦大学与通义实验室 MobileAgent 团队联合提出的 ToolCUA,一种面向 GUI-Tool 混合动作空间的 Computer Use Agent 训练范式。文章首先指出了一个反直觉现象:直接给 Agent 同时接入 GUI 操作和工具调用,反而会导致准确率下降,原因是模型缺乏在 GUI 和 Tool 之间选择路径的能力。为解决这一问题,ToolCUA 提出了两阶段训练方法:第一阶段通过 Interleaved GUI-Tool Trajectory Scaling Pipeline 从已有 GUI-only 数据中合成混合轨迹,并进行 Tool-Bootstrapped GUI RFT 训练;第二阶段通过 Online Agentic RL 在真实环境中优化轨迹级路径选择,并设计了 Tool-Efficient Path Reward 来鼓励模型在合适的场景使用工具、在更短路径上完成任务。实验结果显示,ToolCUA-8B 在 OSWorld-MCP 上取得 46.85% 的准确率,超过 Claude-4-Sonnet,并展现出跨平台泛化能力。文章还通过消融实验验证了各模块的有效性,并通过具体案例展示了模型在 GUI 与 Tool 之间灵活切换的能力。
💡 主要观点
- 直接给 Agent 同时接入 GUI 和 Tool 会导致准确率下降。 实验发现,将工具调用能力直接添加到强模型上,模型会出现 Tool underuse 或 Tool overuse 问题,反而降低任务成功率,核心原因是模型缺乏在两种动作空间之间选择最优路径的能力。
💬 文章金句
- 给 Agent 同时接上 GUI 操作和工具调用,准确率反而下降了。
- 混合动作空间真正难的不是有没有工具,而是模型在 GUI 和 Tool 之间会不会选路。
- R_tool 奖励的不是工具调用更多,而是更精确的两种行为:对于适合工具的任务,成功轨迹里确实调用了工具;对于不适合工具的任务,成功轨迹里反而没有乱用工具。
- 它不是试图用 Tool 替代所有 GUI,也不是退回纯 GUI 操作,而是在真实环境里学习两种 action space 的协同与切换。
📊 文章信息
AI 初评:88
来源:量子位
作者:Jay
分类:人工智能
语言:中文
阅读时间:27 分钟
字数:6563
标签: Computer Use Agent, GUI-Tool 混合动作空间, 强化学习, 路径选择, ToolCUA