别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式

📌 一句话摘要

复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。

📝 详细摘要

本文介绍了复旦大学与通义实验室 MobileAgent 团队联合提出的 ToolCUA，一种面向 GUI-Tool 混合动作空间的 Computer Use Agent 训练范式。文章首先指出了一个反直觉现象：直接给 Agent 同时接入 GUI 操作和工具调用，反而会导致准确率下降，原因是模型缺乏在 GUI 和 Tool 之间选择路径的能力。为解决这一问题，ToolCUA 提出了两阶段训练方法：第一阶段通过 Interleaved GUI-Tool Trajectory Scaling Pipeline 从已有 GUI-only 数据中合成混合轨迹，并进行 Tool-Bootstrapped GUI RFT 训练；第二阶段通过 Online Agentic RL 在真实环境中优化轨迹级路径选择，并设计了 Tool-Efficient Path Reward 来鼓励模型在合适的场景使用工具、在更短路径上完成任务。实验结果显示，ToolCUA-8B 在 OSWorld-MCP 上取得 46.85% 的准确率，超过 Claude-4-Sonnet，并展现出跨平台泛化能力。文章还通过消融实验验证了各模块的有效性，并通过具体案例展示了模型在 GUI 与 Tool 之间灵活切换的能力。

💡 主要观点

- 直接给 Agent 同时接入 GUI 和 Tool 会导致准确率下降。 实验发现，将工具调用能力直接添加到强模型上，模型会出现 Tool underuse 或 Tool overuse 问题，反而降低任务成功率，核心原因是模型缺乏在两种动作空间之间选择最优路径的能力。

ToolCUA 通过两阶段训练解决混合动作空间中的路径选择问题。 第一阶段利用 Interleaved GUI-Tool Trajectory Scaling Pipeline 从 GUI-only 数据中合成混合轨迹，并通过 RFT 让模型学会基础的工具使用和切换；第二阶段通过 Online Agentic RL 在真实环境中优化轨迹级路径选择，使用 Tool-Efficient Path Reward 鼓励模型在合适场景使用工具并探索更短路径。

Tool-Efficient Path Reward 是训练成功的关键。 该奖励函数包含 Tool Appropriateness Reward 和 Path Efficiency Reward 两项，前者奖励模型在适合工具的任务中使用工具、在不适合的任务中避免使用，后者通过组内相对比较鼓励模型探索更短的成功路径。消融实验表明，去掉该奖励后模型性能下降约 7 个点。

ToolCUA 展现出跨平台泛化能力。 尽管训练数据和环境均来自 Linux 桌面，ToolCUA 在未见的 Windows 桌面应用上仍达到 33.8% 的准确率，超过多个更大规模的基线模型，说明其学到的是可迁移的混合动作编排能力。

💬 文章金句

- 给 Agent 同时接上 GUI 操作和工具调用，准确率反而下降了。

混合动作空间真正难的不是有没有工具，而是模型在 GUI 和 Tool 之间会不会选路。
R_tool 奖励的不是工具调用更多，而是更精确的两种行为：对于适合工具的任务，成功轨迹里确实调用了工具；对于不适合工具的任务，成功轨迹里反而没有乱用工具。
它不是试图用 Tool 替代所有 GUI，也不是退回纯 GUI 操作，而是在真实环境里学习两种 action space 的协同与切换。

📊 文章信息

AI 初评：88

来源：量子位

作者：Jay

分类：人工智能

语言：中文

阅读时间：27 分钟

字数：6563

标签： Computer Use Agent, GUI-Tool 混合动作空间, 强化学习, 路径选择, ToolCUA

阅读完整文章

别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式

🤖 問 AI