花了 1000 倍的 token，效果可能却没有更好：AI Agent 的“隐性账单”长什么样

📌 一句话摘要

密歇根大学和斯坦福大学的研究团队通过分析 8 个前沿模型在 SWE-bench 上的轨迹，揭示了 AI Coding Agent 存在 token 消耗不透明、随机性高、成本与效果不成正比等“隐性账单”问题。

📝 详细摘要

本文报道了来自密歇根大学、斯坦福大学等单位的一项系统性研究，该研究使用 OpenHands 框架分析了 8 个前沿模型（包括 GPT-5、Claude Sonnet 系列、Kimi-K2 等）在 SWE-bench-verified 基准上的 token 消耗行为。研究发现，Agentic Coding 任务的 token 消耗远高于代码推理和问答任务，其输入输出比高达 154:1，成本结构独特。更关键的是，token 消耗在不同任务间和同一任务的不同运行间存在巨大随机性，最贵任务比最便宜任务多消耗约 700 万 token。研究还发现，更多的 token 消耗并不能保证更高的任务准确率，反而可能伴随更多的“折腾”行为（如重复查看和修改文件）。不同模型的 token 效率差异显著，GPT-5 系列能以较低成本达到不错效果，而 Kimi-K2 等模型则成本高昂。此外，无论是人类专家还是 Agent 自身，对任务 token 消耗的预测能力都很有限，与实际情况相关性较弱。该研究为理解和优化 AI Agent 的经济性提供了重要数据支撑。

💡 主要观点

- Agentic Coding 任务的 token 消耗远高于代码推理和问答，且以输入 token 为主导。 多轮交互和复杂的上下文管理导致大量代码查询和文件输出被加入对话历史，输入输出比高达 154:1，成本结构与传统任务显著不同。

Token 消耗随机性高，且更多的消耗并不能保证更高的任务成功率。 最贵任务比最便宜任务多消耗约 700 万 token；同一任务重复运行，最贵运行可能比最便宜运行贵 2 倍。高消耗往往伴随重复查看和修改文件的低效行为，而非高效推理。

不同模型的 token 效率差异显著，GPT-5 系列在成本控制上表现突出。 在 500 个任务中，Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗约 150 万 token，但准确率并未显著提升，表明模型间存在系统性的效率差异。

人类专家和 Agent 自身对 token 消耗的预测能力都很有限。 人类标注的任务难度与 Agent 实际 token 消耗的 Kendall tau 系数仅为 0.32，相关性很弱。Agent 自预测的准确率最高也仅为 0.39，且普遍低估实际消耗。

💬 文章金句

- Agentic coding 任务的成本结构与我们所熟悉的对话和推理任务有显著的不同。

更多的消耗并不能保证更高的准确率。
一味简单地堆 token 并不能显著带来更好的效果。
人类程序员和 AI Agent 对任务的 '复杂度认知' 是不同的维度。
不管是人类专家还是 agent 自己，对 token 消耗预测目前只能作为粗粒度的信号，离精确的事前定价还有很大距离。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3177

标签： AI Agent, Coding Agent, Token 消耗, 成本分析, SWE-bench

阅读完整文章

花了 1000 倍的 token，效果可能却没有更好：AI Agent 的“隐性账单”长什么样

🤖 問 AI