本文深入介绍了 Claw-Eval 和 Claw-Eval-Live 两个 Agent 评测框架,提出「活的」Benchmark 概念,通过信号采集与任务筛选确保评测内容紧跟企业实际痛点,并揭示了当前 Agent 在跨系统业务编排上的核心瓶颈。
📝 详细摘要
文章围绕 Agent 评测的演进展开,指出传统评测只看结果不看行动,会系统性高估模型能力。Claw-Eval 通过执行轨迹、审计日志和环境快照三条证据链,将评测从「只看答案」推进到「看行动」,实验证明不看过程会漏掉 44% 的安全违规。在此基础上,Claw-Eval-Live 进一步解决「题库过时」问题,提出「活的」Benchmark 概念:通过信号层(ClawHub Top-500 热门技能)和发布层(固定 snapshot)的两层分离设计,以及五阶段流水线(信号采集、模式聚类、家族加权、种子筛选、MILP 优化选取),确保每次 release 都是当下真实世界的一张切片。评测结果显示,13 个前沿模型在 105 道任务上均未突破 70% 通过率,且真正的难点并非终端操作,而是 HR、管理、跨系统 workflow 等业务任务,平均通过率仅 6.8%。文章强调「说得好不等于做得到」,并指出成本同样是部署决策的关键维度。
💡 主要观点
- 传统 Agent 评测只看结果不看行动,会系统性高估模型能力。 Claw-Eval 通过对照实验证明,仅靠对话记录和评分脚本会漏掉 44% 的安全违规和 13% 的鲁棒性问题,必须引入执行轨迹、审计日志和环境快照三条证据链。
💬 文章金句
- 如果不看过程,Agent 评测会系统性「放水」。
- 今天 Agent 最难的地方,不是「修一个坏掉的东西」,而是「在多个系统之间,把一件业务真的做完」。
- 「说得好」不等于「做得到」。
- Claw-Eval 解决「评分可信」——让我们看清 Agent 到底做了什么。Claw-Eval-Live 解决的是「题库跟上现实」——让 benchmark 不再停留在一套固定题目上,而是持续对准当下最该测的 workflow。
📊 文章信息
AI 初评:87
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5772
标签: Agent 评测, Benchmark, Claw-Eval, Claw-Eval-Live, AI Agent