Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

📌 一句话摘要

SaaS-Bench 基准测试通过 23 个真实 SaaS 系统、106 个长程任务，揭示了当前最强 Computer-Use Agent 在真实办公场景中的惨淡表现：Claude Opus 4.7 端到端通过率仅 3.8%，暴露了 Agent 在长程任务中的四种结构性失败模式。

📝 详细摘要

本文介绍了 UniPat AI 团队推出的 SaaS-Bench 基准测试，旨在评估 AI Agent 在真实办公场景中的长程任务执行能力。与现有仿真环境评测不同，SaaS-Bench 将 23 个开源 SaaS 系统通过 Docker 本地部署，保留完整前后端逻辑和业务数据，覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链和独立媒体六大领域。106 个任务中 93.4% 跨至少两个应用，97.3% 的文本任务操作步数超过 100 步。测试结果显示，最强的 Claude Opus 4.7 检查点分数为 43.9%，但端到端完全通过率仅 3.8%，Kimi K2.5 和 Gemini 3.1 Pro 完全通过率为零。文章深入分析了 Agent 的四种结构性失败模式：随任务推进通过率持续下降、一步错导致下游连锁失败、执行后缺乏验证闭环、以及同一任务多次执行结果高度不稳定。这些失败指向当前 Agent 范式的深层局限——缺少对持久状态的有效推理能力和操作后的闭环验证机制。文章最后指出，未来软件可能需要为 Agent 重新设计界面，而非让 Agent 适应人类软件。

💡 主要观点

- SaaS-Bench 通过真实 SaaS 系统评测，揭示了当前 Agent 与真实工作能力之间的巨大鸿沟。 与仿真环境不同，SaaS-Bench 使用 23 个真实开源 SaaS 系统，填充真实业务数据，要求 Agent 完成跨应用、长步骤的真实工作流，结果最强模型端到端通过率仅 3.8%。

Agent 存在四种结构性失败模式：长程衰减、错误级联、缺乏验证闭环、执行不稳定。 随任务推进通过率持续下降；一个早期小错误可导致下游 30% 的分数损失；Agent 在意图层面认为成功但页面状态实际错误；同一任务多次执行分数从 0 到 0.68 波动极大。

当前 Agent 范式缺少对持久状态的有效推理和操作后的闭环验证能力。 这些失败不是靠模型变大或加工程模块能解决的，指向的是当前范式的天花板——Agent 无法像人一样保持对全局状态的持续感知和自检能力。

未来软件可能需要为 Agent 重新设计界面，而非让 Agent 适应人类软件。 当前 SaaS 界面是为人类操作设计的，当 Agent 成为主要用户时，这些界面反而成为障碍，软件形态可能需要根本性变革。

💬 文章金句

- SaaS-Bench 撕碎了一个幻觉：Agent 的 Benchmark 成绩和真实工作能力之间，存在巨大的鸿沟。

最强的 Claude Opus 4.7，检查点分数 43.9%，端到端完全通过分数只有 3.8%——106 个任务，只完整通过了 4 个。
一个 3% 的错误节点，造成 30% 的分数损失。
Agent 在意图层面认为成功，验证器在状态层面发现失败。两者之间的断层是系统性的。
Computer-Use Agent 想要真正替人干活？路还很远。SaaS-Bench 把地图摊开了——接下来就看各家怎么走了。

📊 文章信息

AI 初评：88

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3406

标签： AI Agent, Computer-Use, SaaS-Bench, GUI Agent, 长程任务

阅读完整文章

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

🤖 問 AI