← 回總覽

别光给 Agent 加 Tool 了,它根本选不明白!复旦×通义提出全新 CUA 训练范式

📅 2026-05-31 22:25 Jay 人工智能 2 分鐘 2025 字 評分: 88
Computer Use Agent GUI-Tool 混合动作空间 强化学习 路径选择 ToolCUA
📌 一句话摘要 复旦与通义联合提出 ToolCUA 训练范式,通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题,在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。 📝 详细摘要 本文介绍了复旦大学与通义实验室 MobileAgent 团队联合提出的 ToolCUA,一种面向 GUI-Tool 混合动作空间的 Computer Use Agent 训练范式。文章首先指出了一个反直觉现象:直接给 Agent 同时接入 GUI 操作和工具调用,反而会导致准确率下降,原因是模型缺乏在 GUI 和 Tool 之间

📌 一句话摘要

复旦与通义联合提出 ToolCUA 训练范式,通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题,在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。

📝 详细摘要

本文介绍了复旦大学与通义实验室 MobileAgent 团队联合提出的 ToolCUA,一种面向 GUI-Tool 混合动作空间的 Computer Use Agent 训练范式。文章首先指出了一个反直觉现象:直接给 Agent 同时接入 GUI 操作和工具调用,反而会导致准确率下降,原因是模型缺乏在 GUI 和 Tool 之间选择路径的能力。为解决这一问题,ToolCUA 提出了两阶段训练方法:第一阶段通过 Interleaved GUI-Tool Trajectory Scaling Pipeline 从已有 GUI-only 数据中合成混合轨迹,并进行 Tool-Bootstrapped GUI RFT 训练;第二阶段通过 Online Agentic RL 在真实环境中优化轨迹级路径选择,并设计了 Tool-Efficient Path Reward 来鼓励模型在合适的场景使用工具、在更短路径上完成任务。实验结果显示,ToolCUA-8B 在 OSWorld-MCP 上取得 46.85% 的准确率,超过 Claude-4-Sonnet,并展现出跨平台泛化能力。文章还通过消融实验验证了各模块的有效性,并通过具体案例展示了模型在 GUI 与 Tool 之间灵活切换的能力。

💡 主要观点

- 直接给 Agent 同时接入 GUI 和 Tool 会导致准确率下降。 实验发现,将工具调用能力直接添加到强模型上,模型会出现 Tool underuse 或 Tool overuse 问题,反而降低任务成功率,核心原因是模型缺乏在两种动作空间之间选择最优路径的能力。

ToolCUA 通过两阶段训练解决混合动作空间中的路径选择问题。 第一阶段利用 Interleaved GUI-Tool Trajectory Scaling Pipeline 从 GUI-only 数据中合成混合轨迹,并通过 RFT 让模型学会基础的工具使用和切换;第二阶段通过 Online Agentic RL 在真实环境中优化轨迹级路径选择,使用 Tool-Efficient Path Reward 鼓励模型在合适场景使用工具并探索更短路径。
Tool-Efficient Path Reward 是训练成功的关键。 该奖励函数包含 Tool Appropriateness Reward 和 Path Efficiency Reward 两项,前者奖励模型在适合工具的任务中使用工具、在不适合的任务中避免使用,后者通过组内相对比较鼓励模型探索更短的成功路径。消融实验表明,去掉该奖励后模型性能下降约 7 个点。
ToolCUA 展现出跨平台泛化能力。 尽管训练数据和环境均来自 Linux 桌面,ToolCUA 在未见的 Windows 桌面应用上仍达到 33.8% 的准确率,超过多个更大规模的基线模型,说明其学到的是可迁移的混合动作编排能力。

💬 文章金句

- 给 Agent 同时接上 GUI 操作和工具调用,准确率反而下降了。

  • 混合动作空间真正难的不是有没有工具,而是模型在 GUI 和 Tool 之间会不会选路。
  • R_tool 奖励的不是工具调用更多,而是更精确的两种行为:对于适合工具的任务,成功轨迹里确实调用了工具;对于不适合工具的任务,成功轨迹里反而没有乱用工具。
  • 它不是试图用 Tool 替代所有 GUI,也不是退回纯 GUI 操作,而是在真实环境里学习两种 action space 的协同与切换。

📊 文章信息

AI 初评:88

来源:量子位

作者:Jay

分类:人工智能

语言:中文

阅读时间:27 分钟

字数:6563

标签: Computer Use Agent, GUI-Tool 混合动作空间, 强化学习, 路径选择, ToolCUA

阅读完整文章

查看原文 → 發佈: 2026-05-31 22:25:18 收錄: 2026-06-01 12:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。