SaaS-Bench 基准测试通过 23 个真实 SaaS 系统、106 个长程任务,揭示了当前最强 Computer-Use Agent 在真实办公场景中的惨淡表现:Claude Opus 4.7 端到端通过率仅 3.8%,暴露了 Agent 在长程任务中的四种结构性失败模式。
📝 详细摘要
本文介绍了 UniPat AI 团队推出的 SaaS-Bench 基准测试,旨在评估 AI Agent 在真实办公场景中的长程任务执行能力。与现有仿真环境评测不同,SaaS-Bench 将 23 个开源 SaaS 系统通过 Docker 本地部署,保留完整前后端逻辑和业务数据,覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链和独立媒体六大领域。106 个任务中 93.4% 跨至少两个应用,97.3% 的文本任务操作步数超过 100 步。测试结果显示,最强的 Claude Opus 4.7 检查点分数为 43.9%,但端到端完全通过率仅 3.8%,Kimi K2.5 和 Gemini 3.1 Pro 完全通过率为零。文章深入分析了 Agent 的四种结构性失败模式:随任务推进通过率持续下降、一步错导致下游连锁失败、执行后缺乏验证闭环、以及同一任务多次执行结果高度不稳定。这些失败指向当前 Agent 范式的深层局限——缺少对持久状态的有效推理能力和操作后的闭环验证机制。文章最后指出,未来软件可能需要为 Agent 重新设计界面,而非让 Agent 适应人类软件。
💡 主要观点
- SaaS-Bench 通过真实 SaaS 系统评测,揭示了当前 Agent 与真实工作能力之间的巨大鸿沟。 与仿真环境不同,SaaS-Bench 使用 23 个真实开源 SaaS 系统,填充真实业务数据,要求 Agent 完成跨应用、长步骤的真实工作流,结果最强模型端到端通过率仅 3.8%。
💬 文章金句
- SaaS-Bench 撕碎了一个幻觉:Agent 的 Benchmark 成绩和真实工作能力之间,存在巨大的鸿沟。
- 最强的 Claude Opus 4.7,检查点分数 43.9%,端到端完全通过分数只有 3.8%——106 个任务,只完整通过了 4 个。
- 一个 3% 的错误节点,造成 30% 的分数损失。
- Agent 在意图层面认为成功,验证器在状态层面发现失败。两者之间的断层是系统性的。
- Computer-Use Agent 想要真正替人干活?路还很远。SaaS-Bench 把地图摊开了——接下来就看各家怎么走了。
📊 文章信息
AI 初评:88
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3406
标签: AI Agent, Computer-Use, SaaS-Bench, GUI Agent, 长程任务