量化智能体编码评估中的基础设施噪声

📌 一句话摘要

Anthropic 的研究量化了基础设施配置（特别是 CPU 和 RAM 限制）如何使智能体编码基准测试分数产生高达 6 个百分点的波动，这可能会掩盖模型的真实能力。

📝 详细摘要

这篇来自 Anthropic Engineering 的文章探讨了基础设施配置对 Terminal-Bench 2.0 和 SWE-bench 等智能体编码基准测试的重大影响。与静态基准测试不同，智能体评估涉及一个运行时环境，模型在此环境中与工具和资源进行交互。研究人员发现，严格的资源强制执行（将下限与上限匹配）会导致由于瞬时峰值而产生较高的基础设施错误率，而过多的资源余量则允许模型通过资源密集型的“暴力”策略取得成功。他们建议采用双参数资源规范（保证分配与硬性终止阈值），并建议对于小于 3% 的排行榜差距应持怀疑态度，除非基础设施变量受到严格控制和记录。

💡 主要观点

- 在智能体评估中，基础设施是一个主动组件，而不是一个被动容器。 在智能体评估中，模型实时编写代码并运行测试。CPU、RAM 和时间限制的差异改变了任务的性质，这意味着拥有不同资源预算的两个智能体本质上是在参加不同的测试。

严格的资源强制执行会导致虚假失败和较高的基础设施噪声。 将硬性资源上限设置为等于分配量会导致容器在瞬时峰值期间被终止（OOM），从而导致与模型实际能力无关的高失败率（高达 6%）。

超过特定阈值（例如 3 倍）的资源余量可能会人为地提高分数。 宽松的资源限制允许模型使用“昂贵”的策略，例如安装庞大的依赖堆栈或运行内存密集型子进程，这些策略在现实约束下会失败。

**小的排行榜差异（由于基础设施混杂因素可能使分数波动几个百分点，公共排行榜上的微小领先可能反映的是硬件差异，而不是模型智能的优越性。

💬 文章金句

- 运行时不再是被动容器，而是问题解决过程中不可或缺的组成部分。拥有不同资源预算和时间限制的两个智能体并不是在参加同一场测试。

智能体评估中的微小分数差异所带来的不确定性，远超所报告数字的精确度所暗示的程度——尤其是因为某些混杂因素实在太难控制了。
几个点的领先可能预示着真正的能力差距——或者仅仅是因为虚拟机（VM）更大。

📊 文章信息

AI 评分：92

来源：Anthropic Engineering

作者：Anthropic Engineering

分类：人工智能

语言：英文

阅读时间：8 分钟

字数：1783

标签： LLM 基准测试, 智能体编码, 基础设施噪声, SWE-bench, Terminal-Bench

阅读完整文章

量化智能体编码评估中的基础设施噪声

🤖 問 AI