博主介绍了首个针对多日协作多模态 Agent 的基准测试 ClawMark,其结果显示当前最优模型得分仅约 55%,并揭示了不同模型在效率、时间适应性和场景表现上的显著差异。
📝 详细摘要
这条推文详细介绍了由 Evolvent AI 联合多所顶尖高校研究者共同构建的 ClawMark 基准测试。该基准是首个针对「与人类共事多日的多模态 Agent」的评测,包含 100 个任务,覆盖 13 个真实职业场景(如保险理赔、EDA 设计)。其核心设计特点是模拟多日动态工作环境,采用纯规则评分以确保可复现性。推文总结了关键发现:1) 当前模型整体表现天花板极低(GPT-5.4 仅 55.0%);2) 模型间效率差异巨大(Claude 成本高 4 倍);3) 时间维度揭示了模型不同的适应轨迹;4) 无单一模型在所有场景领先。这是一份对 AI Agent 能力现状的深度、量化评估。
📊 文章信息
AI 初评:88
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:4 分钟
字数:774
标签: ClawMark, AI Agent, 基准测试, 多模态, 评测