← 回總覽

Claw-Eval 开源:300 个真实任务,端到端评测 AI 智能体的完成度、安全性与鲁棒性

📅 2026-05-23 10:30 魔搭ModelScope社区 人工智能 2 分鐘 1669 字 評分: 87
AI Agent 评测基准 Claw-Eval 端到端评测 鲁棒性
📌 一句话摘要 Claw-Eval 是一个面向 AI 智能体的端到端评测基准,通过 300 个真实任务从完成度、安全性和鲁棒性三个维度评估模型能力,揭示了只看对话轨迹不可靠、能力不等于稳定性等关键发现。 📝 详细摘要 本文介绍了由魔搭社区开源的 Claw-Eval 评测基准,这是业界首个覆盖端到端真实任务的 AI Agent 评测框架。该基准包含 300 个人工验证的真实场景任务,覆盖通用服务、多模态和多轮专业对话三大任务组,从完成度、安全性和鲁棒性三个维度评估 Agent 能力。文章详细阐述了 Claw-Eval 的技术框架设计理念——轻量运行层加真实任务,以及其独特的评分体系,包括 P

📌 一句话摘要

Claw-Eval 是一个面向 AI 智能体的端到端评测基准,通过 300 个真实任务从完成度、安全性和鲁棒性三个维度评估模型能力,揭示了只看对话轨迹不可靠、能力不等于稳定性等关键发现。

📝 详细摘要

本文介绍了由魔搭社区开源的 Claw-Eval 评测基准,这是业界首个覆盖端到端真实任务的 AI Agent 评测框架。该基准包含 300 个人工验证的真实场景任务,覆盖通用服务、多模态和多轮专业对话三大任务组,从完成度、安全性和鲁棒性三个维度评估 Agent 能力。文章详细阐述了 Claw-Eval 的技术框架设计理念——轻量运行层加真实任务,以及其独特的评分体系,包括 Pass@3 和 Pass^3 两个指标分别衡量能力上限和可靠性下限。实验覆盖 14 个前沿模型,三个关键发现包括:仅靠对话轨迹评估不可靠(漏掉 44% 安全违规和 13% 鲁棒性问题)、能力不等于稳定性(错误注入下 Pass^3 最高下降 24 个百分点)、Agent 能力是多维的(不同模型在不同任务类型上表现差异明显)。文章还提供了数据集下载和使用示例,并总结了该基准对模型开发者和应用团队的实际价值。

💡 主要观点

- Claw-Eval 采用轻量运行层加真实任务的设计理念,确保评测的可比性和可审计性。 运行层通过 Setup → Execution → Judge 生命周期完整记录模型行为、工具调用和服务端日志,不引入复杂工程增强,让评测聚焦于模型本身的规划、工具使用和错误恢复能力。

只看对话轨迹评估 Agent 并不可靠,需要结合服务端日志和环境快照。 实验发现,普通 LLM Judge 即使看到完整对话记录,仍会漏掉 44% 的安全违规和 13% 的鲁棒性问题,说明端到端评测必须包含服务端层面的验证。
Agent 的能力上限不等于可靠性下限,稳定性是独立的能力维度。 通过 Pass@3 和 Pass^3 两个指标分别衡量能力上限和可靠性下限,在错误注入实验中 Pass^3 最高下降 24 个百分点,说明一次成功不代表稳定可用。
多模态 Agent 仍是当前模型的明显难点,最高 Pass^3 仅 25.7%。 不同模型在服务编排、多模态和多轮对话中的表现差异明显,没有模型能全面领先,多模态任务尤其困难。

💬 文章金句

- Agent 评测正在成为能力评估的关键方向。一个 Agent 可能给出看似合理的结果,却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。

  • Claw-Eval 的设计重点不是用复杂运行时'包装'Agent,而是用统一、轻量、可审计的执行基座承载真实任务。
  • 一次成功不能代表稳定可用。
  • 问得多不一定更好。真正影响结果的是问题质量,可以解释 76% 的 Pass^3 表现差异。
  • Claw-Eval 反映了 Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性。

📊 文章信息

AI 初评:87

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2169

标签: AI Agent, 评测基准, Claw-Eval, 端到端评测, 鲁棒性

阅读完整文章

查看原文 → 發佈: 2026-05-23 10:30:00 收錄: 2026-05-24 00:00:59

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。