怎么知道 Agent 真干完活了？

📌 一句话摘要

SaaS-Bench 通过将真实 SaaS 应用打包进 Docker 并校验数据库状态，解决了现有 Agent 评测中「只看动作不看结果」的漏洞，专治 Agent 的「嘴硬」问题。

📝 详细摘要

本文介绍了 UniPat 实验室提出的 SaaS-Bench 评测基准，旨在解决现有 Agent 评测（如 OSWorld、Tau2）仅关注操作动作而忽略最终结果的缺陷。SaaS-Bench 将 23 个开源 SaaS 应用（如 Mattermost、OnlyOffice、ownCloud）打包进 Docker 容器，构建真实办公环境。Agent 需完成跨软件、长步骤（97.3% 任务超 100 步）的真实业务任务，评测标准不再是「操作是否正确」，而是通过验证器直接查询数据库状态，判断任务是否真正完成。文章展示了榜单结果：Opus 4.7 和 GPT-5.5 在多模态任务中断档领先，但最高分也不到 50%。文章还分析了任务长度与成功率的关系、多模态模型在 text-only 任务中的优势，以及 Agent 在意图与状态之间的「糊弄」现象。最后指出 SaaS-Bench 的环境可稳定产出高质量 CUA 训练数据，对攻克办公场景的 Agent 有重要价值。

💡 主要观点

- 现有 Agent 评测存在「只看动作不看结果」的漏洞，Agent 善于表演而非真正完成任务。 传统评测如 OSWorld 通过模拟器给操作打分，但 Agent 可能完成点击动作却未触发后台响应，形成「面试型选手」的假象。

SaaS-Bench 通过校验数据库状态来判定任务是否真正完成，从根本上杜绝 Agent 糊弄。 每个任务配备 verify.py 验证器，任务执行后直接查询数据库字段或调用 API 拉取状态，而非依赖 Agent 的自我报告，确保结果真实可靠。

任务越长、跨 App 越多，Agent 成功率急剧下降，且错误具有连锁效应。 单 App 任务平均分 53%，跨 4 个 App 降至 20%；50 步以内任务成功率 50%+，400 步降至 20%。前序小错误会引发后续多步连锁失败，且难以自检。

多模态模型在 text-only 的 Computer-Use 任务中也优于单模态模型，图文并茂更利于 Agent 理解。 多模态模型同时使用截图和无障碍树，而单模态模型仅依赖无障碍树。实验表明，即使任务本身是文本操作，多模态模型的表现也更强，说明视觉信息对 Agent 理解上下文有显著帮助。

💬 文章金句

- 用模拟器评测，测的是【动作】，而不是【结果】。

Agent 的嘴会骗人，但数据库不会。
如果你只看 Agent 给你的汇报结果，很多时候你会被骗的心服口服。
对于 Agent 的评估来说，我们不能只看他的结案报告写的多漂亮，排版多精美，更需要的是看看 Agent 是不是真的干完活了。
SaaS-Bench 的意义，恰就在于给出了一套「测谎」的方法，以及一套「生成数据」的环境。

📊 文章信息

AI 初评：86

来源：赛博禅心

作者：赛博禅心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3223

标签： Agent 评测, SaaS-Bench, Computer-Use Agent, CUA, Benchmark

阅读完整文章

怎么知道 Agent 真干完活了？

🤖 問 AI