Claw-Eval 开源：300 个真实任务，端到端评测 AI 智能体的完成度、安全性与鲁棒性

📌 一句话摘要

Claw-Eval 是一个面向 AI 智能体的端到端评测基准，通过 300 个真实任务从完成度、安全性和鲁棒性三个维度评估模型能力，揭示了只看对话轨迹不可靠、能力不等于稳定性等关键发现。

📝 详细摘要

本文介绍了由魔搭社区开源的 Claw-Eval 评测基准，这是业界首个覆盖端到端真实任务的 AI Agent 评测框架。该基准包含 300 个人工验证的真实场景任务，覆盖通用服务、多模态和多轮专业对话三大任务组，从完成度、安全性和鲁棒性三个维度评估 Agent 能力。文章详细阐述了 Claw-Eval 的技术框架设计理念——轻量运行层加真实任务，以及其独特的评分体系，包括 Pass@3 和 Pass^3 两个指标分别衡量能力上限和可靠性下限。实验覆盖 14 个前沿模型，三个关键发现包括：仅靠对话轨迹评估不可靠（漏掉 44% 安全违规和 13% 鲁棒性问题）、能力不等于稳定性（错误注入下 Pass^3 最高下降 24 个百分点）、Agent 能力是多维的（不同模型在不同任务类型上表现差异明显）。文章还提供了数据集下载和使用示例，并总结了该基准对模型开发者和应用团队的实际价值。

💡 主要观点

- Claw-Eval 采用轻量运行层加真实任务的设计理念，确保评测的可比性和可审计性。 运行层通过 Setup → Execution → Judge 生命周期完整记录模型行为、工具调用和服务端日志，不引入复杂工程增强，让评测聚焦于模型本身的规划、工具使用和错误恢复能力。

只看对话轨迹评估 Agent 并不可靠，需要结合服务端日志和环境快照。 实验发现，普通 LLM Judge 即使看到完整对话记录，仍会漏掉 44% 的安全违规和 13% 的鲁棒性问题，说明端到端评测必须包含服务端层面的验证。

Agent 的能力上限不等于可靠性下限，稳定性是独立的能力维度。 通过 Pass@3 和 Pass^3 两个指标分别衡量能力上限和可靠性下限，在错误注入实验中 Pass^3 最高下降 24 个百分点，说明一次成功不代表稳定可用。

多模态 Agent 仍是当前模型的明显难点，最高 Pass^3 仅 25.7%。 不同模型在服务编排、多模态和多轮对话中的表现差异明显，没有模型能全面领先，多模态任务尤其困难。

💬 文章金句

- Agent 评测正在成为能力评估的关键方向。一个 Agent 可能给出看似合理的结果，却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。

Claw-Eval 的设计重点不是用复杂运行时'包装'Agent，而是用统一、轻量、可审计的执行基座承载真实任务。
一次成功不能代表稳定可用。
问得多不一定更好。真正影响结果的是问题质量，可以解释 76% 的 Pass^3 表现差异。
Claw-Eval 反映了 Agent 评测范式的转变：从看最终答案到看完整过程，从展示能力到验证可靠性。

📊 文章信息

AI 初评：87

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2169

标签： AI Agent, 评测基准, Claw-Eval, 端到端评测, 鲁棒性

阅读完整文章

Claw-Eval 开源：300 个真实任务，端到端评测 AI 智能体的完成度、安全性与鲁棒性

🤖 問 AI