ClawMark 基准发布：首个针对多日协作多模态 Agent 的评测，揭示当前模型能力天花板

📅 2026-04-14 18:40 meng shao 人工智能 1 分鐘 663 字評分: 88

📌 一句话摘要博主介绍了首个针对多日协作多模态 Agent 的基准测试 ClawMark，其结果显示当前最优模型得分仅约 55%，并揭示了不同模型在效率、时间适应性和场景表现上的显著差异。 📝 详细摘要这条推文详细介绍了由 Evolvent AI 联合多所顶尖高校研究者共同构建的 ClawMark 基准测试。该基准是首个针对「与人类共事多日的多模态 Agent」的评测，包含 100 个任务，覆盖 13 个真实职业场景（如保险理赔、EDA 设计）。其核心设计特点是模拟多日动态工作环境，采用纯规则评分以确保可复现性。推文总结了关键发现：1) 当前模型整体表现天花板极低（GPT-5.4 仅

📌 一句话摘要

博主介绍了首个针对多日协作多模态 Agent 的基准测试 ClawMark，其结果显示当前最优模型得分仅约 55%，并揭示了不同模型在效率、时间适应性和场景表现上的显著差异。

📝 详细摘要

这条推文详细介绍了由 Evolvent AI 联合多所顶尖高校研究者共同构建的 ClawMark 基准测试。该基准是首个针对「与人类共事多日的多模态 Agent」的评测，包含 100 个任务，覆盖 13 个真实职业场景（如保险理赔、EDA 设计）。其核心设计特点是模拟多日动态工作环境，采用纯规则评分以确保可复现性。推文总结了关键发现：1) 当前模型整体表现天花板极低（GPT-5.4 仅 55.0%）；2) 模型间效率差异巨大（Claude 成本高 4 倍）；3) 时间维度揭示了模型不同的适应轨迹；4) 无单一模型在所有场景领先。这是一份对 AI Agent 能力现状的深度、量化评估。

📊 文章信息

AI 初评：88

来源：meng shao(@shao__meng)

作者：meng shao

分类：人工智能

语言：中文

阅读时间：4 分钟

字数：774

标签： ClawMark, AI Agent, 基准测试, 多模态, 评测

阅读推文

查看原文 → 發佈: 2026-04-14 18:40:19 收錄: 2026-04-14 20:00:52

ClawMark 基准发布：首个针对多日协作多模态 Agent 的评测，揭示当前模型能力天花板

🤖 問 AI