Claw-Eval-Live 是一个面向 Agent 的实时评测框架,通过审计执行轨迹和环境快照来替代仅看结果的评估方式,并动态更新任务集以反映真实工作流需求,其评测结果显示当前最强模型通过率也仅 66%,且短板在于跨系统工作流而非终端操作。
📝 详细摘要
本文介绍了 Claw-Eval-Live,一个面向 AI Agent 的实时评测框架。该框架的核心创新在于两点:一是通过审计执行轨迹、服务端日志和环境快照来评估 Agent 是否真正完成任务,而非仅依赖最终输出,实验表明只看结果会系统性高估 Agent 能力,漏掉 44% 的安全违规和 13% 的鲁棒性问题;二是动态更新评测任务集,通过信号采集、模式聚类和 MILP 优化选择当前最具代表性的工作流任务,避免静态 benchmark 与真实需求脱节。当前公开 release 包含 105 个任务、17 个任务家族和 13 个前沿模型。评测结果揭示了反直觉的发现:真正难倒 Agent 的不是终端操作(Development/Terminal 对强模型已接近天花板),而是 HR、管理和跨系统工作流,HR 平均通过率仅 6.8%,WORKFLOW 仅 12.8%。这证明当前 Agent 的核心短板在于多系统间的证据收集、记录关联和写操作能力。
💡 主要观点
- Agent 评测不能只看结果,必须审计执行过程。 Claw-Eval 通过审计执行轨迹、服务端日志和环境快照来评估 Agent,实验表明仅看结果会漏掉 44% 的安全违规和 13% 的鲁棒性问题,导致系统性高估 Agent 能力。
💬 文章金句
- 只看结果会系统性高估 Agent。
- 真正难的不是 Terminal。Development / Terminal 对强模型已经接近天花板;真正卡住模型的是 HR / People、Management / Ops 和跨系统 workflow。
- 当前 Agent 的短板,不是'会不会用 terminal',而是能不能在多个系统之间持续收集证据、正确关联记录,并完成必须的写操作。
- 没有任何模型通过率突破 70%,榜首到末尾差距达 22.9 个百分点。
📊 文章信息
AI 初评:82
来源:PaperAgent
作者:PaperAgent
分类:人工智能
语言:中文
阅读时间:6 分钟
字数:1377
标签: Agent 评测, Claw-Eval-Live, AI Agent, 工作流自动化, 基准测试