Claude 4.6 只有 66%？Claw-Eval-Live 说：会修终端≠能跨系统干活

📌 一句话摘要

Claw-Eval-Live 是一个面向 Agent 的实时评测框架，通过审计执行轨迹和环境快照来替代仅看结果的评估方式，并动态更新任务集以反映真实工作流需求，其评测结果显示当前最强模型通过率也仅 66%，且短板在于跨系统工作流而非终端操作。

📝 详细摘要

本文介绍了 Claw-Eval-Live，一个面向 AI Agent 的实时评测框架。该框架的核心创新在于两点：一是通过审计执行轨迹、服务端日志和环境快照来评估 Agent 是否真正完成任务，而非仅依赖最终输出，实验表明只看结果会系统性高估 Agent 能力，漏掉 44% 的安全违规和 13% 的鲁棒性问题；二是动态更新评测任务集，通过信号采集、模式聚类和 MILP 优化选择当前最具代表性的工作流任务，避免静态 benchmark 与真实需求脱节。当前公开 release 包含 105 个任务、17 个任务家族和 13 个前沿模型。评测结果揭示了反直觉的发现：真正难倒 Agent 的不是终端操作（Development/Terminal 对强模型已接近天花板），而是 HR、管理和跨系统工作流，HR 平均通过率仅 6.8%，WORKFLOW 仅 12.8%。这证明当前 Agent 的核心短板在于多系统间的证据收集、记录关联和写操作能力。

💡 主要观点

- Agent 评测不能只看结果，必须审计执行过程。 Claw-Eval 通过审计执行轨迹、服务端日志和环境快照来评估 Agent，实验表明仅看结果会漏掉 44% 的安全违规和 13% 的鲁棒性问题，导致系统性高估 Agent 能力。

静态 benchmark 会与真实工作流需求脱节，需要动态更新任务集。 Claw-Eval-Live 通过信号采集、模式聚类和 MILP 优化，从当前真实需求中动态选择评测任务，每次 release 都是一张带时间戳的现实切片，保证评测结果的可复现性和时效性。

当前 Agent 的短板在于跨系统工作流，而非终端操作。 评测结果显示 Development/Terminal 对强模型已接近天花板，但 HR 平均通过率仅 6.8%，WORKFLOW 仅 12.8%，说明 Agent 在多系统间收集证据、关联记录和完成写操作的能力才是核心瓶颈。

💬 文章金句

- 只看结果会系统性高估 Agent。

真正难的不是 Terminal。Development / Terminal 对强模型已经接近天花板；真正卡住模型的是 HR / People、Management / Ops 和跨系统 workflow。
当前 Agent 的短板，不是'会不会用 terminal'，而是能不能在多个系统之间持续收集证据、正确关联记录，并完成必须的写操作。
没有任何模型通过率突破 70%，榜首到末尾差距达 22.9 个百分点。

📊 文章信息

AI 初评：82

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1377

标签： Agent 评测, Claw-Eval-Live, AI Agent, 工作流自动化, 基准测试

阅读完整文章

Claude 4.6 只有 66%？Claw-Eval-Live 说：会修终端≠能跨系统干活

🤖 問 AI