Agent 评测的下半场：为什么需要一个「活的」Benchmark？

📌 一句话摘要

本文深入介绍了 Claw-Eval 和 Claw-Eval-Live 两个 Agent 评测框架，提出「活的」Benchmark 概念，通过信号采集与任务筛选确保评测内容紧跟企业实际痛点，并揭示了当前 Agent 在跨系统业务编排上的核心瓶颈。

📝 详细摘要

文章围绕 Agent 评测的演进展开，指出传统评测只看结果不看行动，会系统性高估模型能力。Claw-Eval 通过执行轨迹、审计日志和环境快照三条证据链，将评测从「只看答案」推进到「看行动」，实验证明不看过程会漏掉 44% 的安全违规。在此基础上，Claw-Eval-Live 进一步解决「题库过时」问题，提出「活的」Benchmark 概念：通过信号层（ClawHub Top-500 热门技能）和发布层（固定 snapshot）的两层分离设计，以及五阶段流水线（信号采集、模式聚类、家族加权、种子筛选、MILP 优化选取），确保每次 release 都是当下真实世界的一张切片。评测结果显示，13 个前沿模型在 105 道任务上均未突破 70% 通过率，且真正的难点并非终端操作，而是 HR、管理、跨系统 workflow 等业务任务，平均通过率仅 6.8%。文章强调「说得好不等于做得到」，并指出成本同样是部署决策的关键维度。

💡 主要观点

- 传统 Agent 评测只看结果不看行动，会系统性高估模型能力。 Claw-Eval 通过对照实验证明，仅靠对话记录和评分脚本会漏掉 44% 的安全违规和 13% 的鲁棒性问题，必须引入执行轨迹、审计日志和环境快照三条证据链。

Claw-Eval-Live 提出「活的」Benchmark 概念，通过信号采集与任务筛选确保题库持续对齐真实需求。 采用信号层（ClawHub Top-500 热门技能）和发布层（固定 snapshot）两层分离设计，通过五阶段流水线自动生成与真实工作流需求同步的评测任务集。

当前 Agent 的主要瓶颈是跨系统业务编排，而非终端操作。 Claw-Eval-Live 评测显示，终端修复任务强模型已接近 100% 通过率，而 HR、管理、跨系统 workflow 等业务任务平均通过率仅 6.8%，说明 Agent 在「多系统间把业务做完」的能力严重不足。

「说得好」不等于「做得到」，Agent 评测应奖励行动闭环而非语言流畅度。 Claw-Eval-Live 的排名与聊天/写作 benchmark 不一致，它奖励跨系统证据收集、正确的记录关联和执行后状态完整性，而非最终回答的流畅度。

💬 文章金句

- 如果不看过程，Agent 评测会系统性「放水」。

今天 Agent 最难的地方，不是「修一个坏掉的东西」，而是「在多个系统之间，把一件业务真的做完」。
「说得好」不等于「做得到」。
Claw-Eval 解决「评分可信」——让我们看清 Agent 到底做了什么。Claw-Eval-Live 解决的是「题库跟上现实」——让 benchmark 不再停留在一套固定题目上，而是持续对准当下最该测的 workflow。

📊 文章信息

AI 初评：87

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5772

标签： Agent 评测, Benchmark, Claw-Eval, Claw-Eval-Live, AI Agent

阅读完整文章

Agent 评测的下半场：为什么需要一个「活的」Benchmark？

🤖 問 AI