密歇根大学和斯坦福大学的研究团队通过分析 8 个前沿模型在 SWE-bench 上的轨迹,揭示了 AI Coding Agent 存在 token 消耗不透明、随机性高、成本与效果不成正比等“隐性账单”问题。
📝 详细摘要
本文报道了来自密歇根大学、斯坦福大学等单位的一项系统性研究,该研究使用 OpenHands 框架分析了 8 个前沿模型(包括 GPT-5、Claude Sonnet 系列、Kimi-K2 等)在 SWE-bench-verified 基准上的 token 消耗行为。研究发现,Agentic Coding 任务的 token 消耗远高于代码推理和问答任务,其输入输出比高达 154:1,成本结构独特。更关键的是,token 消耗在不同任务间和同一任务的不同运行间存在巨大随机性,最贵任务比最便宜任务多消耗约 700 万 token。研究还发现,更多的 token 消耗并不能保证更高的任务准确率,反而可能伴随更多的“折腾”行为(如重复查看和修改文件)。不同模型的 token 效率差异显著,GPT-5 系列能以较低成本达到不错效果,而 Kimi-K2 等模型则成本高昂。此外,无论是人类专家还是 Agent 自身,对任务 token 消耗的预测能力都很有限,与实际情况相关性较弱。该研究为理解和优化 AI Agent 的经济性提供了重要数据支撑。
💡 主要观点
- Agentic Coding 任务的 token 消耗远高于代码推理和问答,且以输入 token 为主导。 多轮交互和复杂的上下文管理导致大量代码查询和文件输出被加入对话历史,输入输出比高达 154:1,成本结构与传统任务显著不同。
💬 文章金句
- Agentic coding 任务的成本结构与我们所熟悉的对话和推理任务有显著的不同。
- 更多的消耗并不能保证更高的准确率。
- 一味简单地堆 token 并不能显著带来更好的效果。
- 人类程序员和 AI Agent 对任务的 '复杂度认知' 是不同的维度。
- 不管是人类专家还是 agent 自己,对 token 消耗预测目前只能作为粗粒度的信号,离精确的事前定价还有很大距离。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3177
标签: AI Agent, Coding Agent, Token 消耗, 成本分析, SWE-bench