← 回總覽

Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

📅 2026-05-25 11:29 量子位的朋友们 人工智能 2 分鐘 1845 字 評分: 88
AI Agent Computer-Use SaaS-Bench GUI Agent 长程任务
📌 一句话摘要 SaaS-Bench 基准测试通过 23 个真实 SaaS 系统、106 个长程任务,揭示了当前最强 Computer-Use Agent 在真实办公场景中的惨淡表现:Claude Opus 4.7 端到端通过率仅 3.8%,暴露了 Agent 在长程任务中的四种结构性失败模式。 📝 详细摘要 本文介绍了 UniPat AI 团队推出的 SaaS-Bench 基准测试,旨在评估 AI Agent 在真实办公场景中的长程任务执行能力。与现有仿真环境评测不同,SaaS-Bench 将 23 个开源 SaaS 系统通过 Docker 本地部署,保留完整前后端逻辑和业务数据,覆盖软

📌 一句话摘要

SaaS-Bench 基准测试通过 23 个真实 SaaS 系统、106 个长程任务,揭示了当前最强 Computer-Use Agent 在真实办公场景中的惨淡表现:Claude Opus 4.7 端到端通过率仅 3.8%,暴露了 Agent 在长程任务中的四种结构性失败模式。

📝 详细摘要

本文介绍了 UniPat AI 团队推出的 SaaS-Bench 基准测试,旨在评估 AI Agent 在真实办公场景中的长程任务执行能力。与现有仿真环境评测不同,SaaS-Bench 将 23 个开源 SaaS 系统通过 Docker 本地部署,保留完整前后端逻辑和业务数据,覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链和独立媒体六大领域。106 个任务中 93.4% 跨至少两个应用,97.3% 的文本任务操作步数超过 100 步。测试结果显示,最强的 Claude Opus 4.7 检查点分数为 43.9%,但端到端完全通过率仅 3.8%,Kimi K2.5 和 Gemini 3.1 Pro 完全通过率为零。文章深入分析了 Agent 的四种结构性失败模式:随任务推进通过率持续下降、一步错导致下游连锁失败、执行后缺乏验证闭环、以及同一任务多次执行结果高度不稳定。这些失败指向当前 Agent 范式的深层局限——缺少对持久状态的有效推理能力和操作后的闭环验证机制。文章最后指出,未来软件可能需要为 Agent 重新设计界面,而非让 Agent 适应人类软件。

💡 主要观点

- SaaS-Bench 通过真实 SaaS 系统评测,揭示了当前 Agent 与真实工作能力之间的巨大鸿沟。 与仿真环境不同,SaaS-Bench 使用 23 个真实开源 SaaS 系统,填充真实业务数据,要求 Agent 完成跨应用、长步骤的真实工作流,结果最强模型端到端通过率仅 3.8%。

Agent 存在四种结构性失败模式:长程衰减、错误级联、缺乏验证闭环、执行不稳定。 随任务推进通过率持续下降;一个早期小错误可导致下游 30% 的分数损失;Agent 在意图层面认为成功但页面状态实际错误;同一任务多次执行分数从 0 到 0.68 波动极大。
当前 Agent 范式缺少对持久状态的有效推理和操作后的闭环验证能力。 这些失败不是靠模型变大或加工程模块能解决的,指向的是当前范式的天花板——Agent 无法像人一样保持对全局状态的持续感知和自检能力。
未来软件可能需要为 Agent 重新设计界面,而非让 Agent 适应人类软件。 当前 SaaS 界面是为人类操作设计的,当 Agent 成为主要用户时,这些界面反而成为障碍,软件形态可能需要根本性变革。

💬 文章金句

- SaaS-Bench 撕碎了一个幻觉:Agent 的 Benchmark 成绩和真实工作能力之间,存在巨大的鸿沟。

  • 最强的 Claude Opus 4.7,检查点分数 43.9%,端到端完全通过分数只有 3.8%——106 个任务,只完整通过了 4 个。
  • 一个 3% 的错误节点,造成 30% 的分数损失。
  • Agent 在意图层面认为成功,验证器在状态层面发现失败。两者之间的断层是系统性的。
  • Computer-Use Agent 想要真正替人干活?路还很远。SaaS-Bench 把地图摊开了——接下来就看各家怎么走了。

📊 文章信息

AI 初评:88

来源:量子位

作者:量子位的朋友们

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3406

标签: AI Agent, Computer-Use, SaaS-Bench, GUI Agent, 长程任务

阅读完整文章

查看原文 → 發佈: 2026-05-25 11:29:41 收錄: 2026-05-25 14:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。