← 回總覽

37 万次真实会话实测 Agent 榜单:GPT-5.5High 第一,Claude 最稳,真实干活能力看这五项核心指标

📅 2026-06-07 08:54 51CTO技术栈 人工智能 2 分鐘 1601 字 評分: 85
AI Agent LLM 模型评测与基准 AI 产品与应用 AI 编程
📌 一句话摘要 Arena.ai 基于 37 万次真实会话发布 Agent 排行榜,GPT-5.5 High 综合第一,Claude 系列以稳定见长,并拆解出确认成功、可控性、Bash 恢复等五项核心指标,揭示传统基准与实际表现之间的落差。 📝 详细摘要 文章报道了 Arena.ai 发布的 Agent Arena 排行榜,该榜单基于 373,431 次真实用户会话数据,对 18 个主流模型的 Agent 能力进行排名。排名采用「净改进」指标,通过因果推断方法计算模型相对于随机基线的性能提升。GPT-5.5 High 以 +10.66% 位列第一,Claude Opus 4.7 Think

📌 一句话摘要

Arena.ai 基于 37 万次真实会话发布 Agent 排行榜,GPT-5.5 High 综合第一,Claude 系列以稳定见长,并拆解出确认成功、可控性、Bash 恢复等五项核心指标,揭示传统基准与实际表现之间的落差。

📝 详细摘要

文章报道了 Arena.ai 发布的 Agent Arena 排行榜,该榜单基于 373,431 次真实用户会话数据,对 18 个主流模型的 Agent 能力进行排名。排名采用「净改进」指标,通过因果推断方法计算模型相对于随机基线的性能提升。GPT-5.5 High 以 +10.66% 位列第一,Claude Opus 4.7 Thinking 紧随其后。文章重点拆解了五个分项指标:确认成功、表扬与抱怨、可控性、Bash 恢复和工具幻觉,并指出不同模型在各指标上的风格分化——GPT 系列在用户满意度和可控性上领先,Claude 系列在任务完成稳定性上更优。文章还分析了用户行为数据,发现用户信任建立不易(收回控制权频率是再次授权的 2.3 倍),以及 Agent 被纠正后存在「虚张声势」现象。最后给出选型建议:不同场景应侧重不同指标,并提醒实际成本可能高于理论定价。

💡 主要观点

- Agent Arena 用真实会话替代传统基准,更贴近实际工作表现。 传统基准如 SWE-Bench 测的是标准化题目,无法覆盖多轮交互、工具调用失败等真实场景。Agent Arena 记录真实用户会话,用因果推断方法评估模型,结果更具参考价值。

GPT-5.5 High 综合第一,Claude 系列以稳定见长。 GPT-5.5 High 在可控性和用户满意度上大幅领先;Claude Opus 4.7 Thinking 在「确认成功」指标上最高,任务完成最稳。两者风格分化明显。
五项分项指标拆解了 Agent 的核心能力。 包括确认成功(任务完成)、表扬与抱怨(用户满意度)、可控性(被纠正后能否改对)、Bash 恢复(报错后恢复能力)和工具幻觉(是否调用不存在工具),每项对应真实工作中的关键能力。
用户信任建立不易,Agent 存在「虚张声势」现象。 数据显示,用户收回控制权的频率是再次授权的 2.3 倍;Agent 被纠正后 26% 的情况听起来自信满满,但真正拒绝修改的只有 2.7%,实际改对与否存疑。

💬 文章金句

- 传统基准(SWE-Bench、MMLU 等)测的是标准化题目,一次问答、一次打分。但到了实际工作中,Agent 要面对多轮交互、工具调用失败、shell 报错、用户中途改需求等不同任务,传统基准覆盖不了这些维度,分数自然也说明不了什么。

  • Claude 偏稳,GPT 偏'让人开心'。
  • 用户一开始很愿意放手,看到初步结果后反而更谨慎了。信任没有想象中容易建立。

📊 文章信息

AI 初评:85

来源:51CTO技术栈

作者:51CTO技术栈

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3407

标签: AI Agent, LLM, 模型评测与基准, AI 产品与应用, AI 编程

阅读完整文章

查看原文 → 發佈: 2026-06-07 08:54:00 收錄: 2026-06-07 20:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。