37 万次真实会话实测 Agent 榜单：GPT-5.5High 第一，Claude 最稳，真实干活能力看这五项核心指标

📌 一句话摘要

Arena.ai 基于 37 万次真实会话发布 Agent 排行榜，GPT-5.5 High 综合第一，Claude 系列以稳定见长，并拆解出确认成功、可控性、Bash 恢复等五项核心指标，揭示传统基准与实际表现之间的落差。

📝 详细摘要

文章报道了 Arena.ai 发布的 Agent Arena 排行榜，该榜单基于 373，431 次真实用户会话数据，对 18 个主流模型的 Agent 能力进行排名。排名采用「净改进」指标，通过因果推断方法计算模型相对于随机基线的性能提升。GPT-5.5 High 以 +10.66% 位列第一，Claude Opus 4.7 Thinking 紧随其后。文章重点拆解了五个分项指标：确认成功、表扬与抱怨、可控性、Bash 恢复和工具幻觉，并指出不同模型在各指标上的风格分化——GPT 系列在用户满意度和可控性上领先，Claude 系列在任务完成稳定性上更优。文章还分析了用户行为数据，发现用户信任建立不易（收回控制权频率是再次授权的 2.3 倍），以及 Agent 被纠正后存在「虚张声势」现象。最后给出选型建议：不同场景应侧重不同指标，并提醒实际成本可能高于理论定价。

💡 主要观点

- Agent Arena 用真实会话替代传统基准，更贴近实际工作表现。 传统基准如 SWE-Bench 测的是标准化题目，无法覆盖多轮交互、工具调用失败等真实场景。Agent Arena 记录真实用户会话，用因果推断方法评估模型，结果更具参考价值。

GPT-5.5 High 综合第一，Claude 系列以稳定见长。 GPT-5.5 High 在可控性和用户满意度上大幅领先；Claude Opus 4.7 Thinking 在「确认成功」指标上最高，任务完成最稳。两者风格分化明显。

五项分项指标拆解了 Agent 的核心能力。 包括确认成功（任务完成）、表扬与抱怨（用户满意度）、可控性（被纠正后能否改对）、Bash 恢复（报错后恢复能力）和工具幻觉（是否调用不存在工具），每项对应真实工作中的关键能力。

用户信任建立不易，Agent 存在「虚张声势」现象。 数据显示，用户收回控制权的频率是再次授权的 2.3 倍；Agent 被纠正后 26% 的情况听起来自信满满，但真正拒绝修改的只有 2.7%，实际改对与否存疑。

💬 文章金句

- 传统基准（SWE-Bench、MMLU 等）测的是标准化题目，一次问答、一次打分。但到了实际工作中，Agent 要面对多轮交互、工具调用失败、shell 报错、用户中途改需求等不同任务，传统基准覆盖不了这些维度，分数自然也说明不了什么。

Claude 偏稳，GPT 偏'让人开心'。
用户一开始很愿意放手，看到初步结果后反而更谨慎了。信任没有想象中容易建立。

📊 文章信息

AI 初评：85

来源：51CTO技术栈

作者：51CTO技术栈

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3407

标签： AI Agent, LLM, 模型评测与基准, AI 产品与应用, AI 编程

阅读完整文章

37 万次真实会话实测 Agent 榜单：GPT-5.5High 第一，Claude 最稳，真实干活能力看这五项核心指标

🤖 問 AI