← 回總覽

怎么知道 Agent 真干完活了?

📅 2026-05-26 12:27 赛博禅心 人工智能 2 分鐘 1694 字 評分: 86
Agent 评测 SaaS-Bench Computer-Use Agent CUA Benchmark
📌 一句话摘要 SaaS-Bench 通过将真实 SaaS 应用打包进 Docker 并校验数据库状态,解决了现有 Agent 评测中「只看动作不看结果」的漏洞,专治 Agent 的「嘴硬」问题。 📝 详细摘要 本文介绍了 UniPat 实验室提出的 SaaS-Bench 评测基准,旨在解决现有 Agent 评测(如 OSWorld、Tau2)仅关注操作动作而忽略最终结果的缺陷。SaaS-Bench 将 23 个开源 SaaS 应用(如 Mattermost、OnlyOffice、ownCloud)打包进 Docker 容器,构建真实办公环境。Agent 需完成跨软件、长步骤(97.3%

📌 一句话摘要

SaaS-Bench 通过将真实 SaaS 应用打包进 Docker 并校验数据库状态,解决了现有 Agent 评测中「只看动作不看结果」的漏洞,专治 Agent 的「嘴硬」问题。

📝 详细摘要

本文介绍了 UniPat 实验室提出的 SaaS-Bench 评测基准,旨在解决现有 Agent 评测(如 OSWorld、Tau2)仅关注操作动作而忽略最终结果的缺陷。SaaS-Bench 将 23 个开源 SaaS 应用(如 Mattermost、OnlyOffice、ownCloud)打包进 Docker 容器,构建真实办公环境。Agent 需完成跨软件、长步骤(97.3% 任务超 100 步)的真实业务任务,评测标准不再是「操作是否正确」,而是通过验证器直接查询数据库状态,判断任务是否真正完成。文章展示了榜单结果:Opus 4.7 和 GPT-5.5 在多模态任务中断档领先,但最高分也不到 50%。文章还分析了任务长度与成功率的关系、多模态模型在 text-only 任务中的优势,以及 Agent 在意图与状态之间的「糊弄」现象。最后指出 SaaS-Bench 的环境可稳定产出高质量 CUA 训练数据,对攻克办公场景的 Agent 有重要价值。

💡 主要观点

- 现有 Agent 评测存在「只看动作不看结果」的漏洞,Agent 善于表演而非真正完成任务。 传统评测如 OSWorld 通过模拟器给操作打分,但 Agent 可能完成点击动作却未触发后台响应,形成「面试型选手」的假象。

SaaS-Bench 通过校验数据库状态来判定任务是否真正完成,从根本上杜绝 Agent 糊弄。 每个任务配备 verify.py 验证器,任务执行后直接查询数据库字段或调用 API 拉取状态,而非依赖 Agent 的自我报告,确保结果真实可靠。
任务越长、跨 App 越多,Agent 成功率急剧下降,且错误具有连锁效应。 单 App 任务平均分 53%,跨 4 个 App 降至 20%;50 步以内任务成功率 50%+,400 步降至 20%。前序小错误会引发后续多步连锁失败,且难以自检。
多模态模型在 text-only 的 Computer-Use 任务中也优于单模态模型,图文并茂更利于 Agent 理解。 多模态模型同时使用截图和无障碍树,而单模态模型仅依赖无障碍树。实验表明,即使任务本身是文本操作,多模态模型的表现也更强,说明视觉信息对 Agent 理解上下文有显著帮助。

💬 文章金句

- 用模拟器评测,测的是【动作】,而不是【结果】。

  • Agent 的嘴会骗人,但数据库不会。
  • 如果你只看 Agent 给你的汇报结果,很多时候你会被骗的心服口服。
  • 对于 Agent 的评估来说,我们不能只看他的结案报告写的多漂亮,排版多精美,更需要的是看看 Agent 是不是真的干完活了。
  • SaaS-Bench 的意义,恰就在于给出了一套「测谎」的方法,以及一套「生成数据」的环境。

📊 文章信息

AI 初评:86

来源:赛博禅心

作者:赛博禅心

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3223

标签: Agent 评测, SaaS-Bench, Computer-Use Agent, CUA, Benchmark

阅读完整文章

查看原文 → 發佈: 2026-05-26 12:27:00 收錄: 2026-05-27 00:00:36

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。