AI 写代码到底有多烧钱？

📌 一句话摘要

一篇基于斯坦福、MIT 等高校联合论文的深度分析，系统揭示了 AI Agent 在代码任务中 Token 消耗的不可预测性、成本失控的根源，以及模型效率的显著差异。

📝 详细摘要

本文基于一篇 2026 年 4 月发表的预印本论文，深入剖析了 AI Agent 在自主编码任务中的 Token 消耗问题。文章指出，Agent 的 Token 消耗量是普通 AI 对话的约 1000 倍，成本主要花在「读代码」而非「写代码」上。研究发现，同一任务多次运行的成本波动可达 2 倍，跨模型差异高达 30 倍，且高成本并不等同于高成功率，反而可能因 Agent 陷入重复劳动而降低效率。文章还揭示了模型之间「能效比」的巨大差异，以及模型自身无法准确预测 Token 消耗的困境。最后，文章讨论了这些发现对 Agent 定价模式、模型选型和 Agent 设计（如引入预算感知策略）的深远影响。

💡 主要观点

- AI Agent 编码任务的 Token 消耗是普通对话的约 1000 倍。 成本主要源于 Agent 在探索和调试过程中需要反复读取大量项目上下文，导致输入 Token 指数级增长，而非输出代码本身。

同一任务多次运行的成本波动巨大，且高成本不等于高成功率。 研究发现，同一模型同一任务的最贵与最便宜运行成本相差约 2 倍，跨模型可达 30 倍。高成本运行中约 50% 的操作是重复劳动，导致准确率不升反降。

模型间「能效比」差异显著，Token 效率是模型的固有属性。 不同模型在解决相同任务时，Token 消耗量差异巨大，且这种效率差异与任务难度无关，是模型的「固有性格」。

模型自身无法准确预测其 Token 消耗，且预测本身也有成本。 所有测试模型在自我预测 Token 用量时表现不佳，相关性最高仅 0.39，且普遍低估消耗。部分模型的预测成本甚至高于实际执行成本。

💬 文章金句

- 驱动 Agent 成本的，是输入 Token 的指数级增长，而非输出 Token。

花得多，不代表做得好。
有些模型天生就「话多」，跟任务难度关系不大。
现阶段，前沿模型无法准确预测自身的 Token 用量。点下「运行 Agent」，就像开盲盒------账单出来才知道花了多少。

📊 文章信息

AI 初评：86

来源：钛媒体

作者：钛媒体

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3447

标签： AI Agent, Token 消耗, 成本分析, 编码效率, 模型选型

阅读完整文章

AI 写代码到底有多烧钱？

🤖 問 AI