Meta、斯坦福和哈佛联合发布 ProgramBench 基准测试,要求 AI 从零复现完整软件,9 款顶级模型通过率全部为 0%,揭示当前 AI 在系统设计与软件工程能力上的根本性缺陷。
📝 详细摘要
文章报道了由 SWE-Bench 原班人马(Meta、斯坦福、哈佛)联合推出的全新 AI 编程基准测试 ProgramBench。与 SWE-Bench 的「修 bug」模式不同,ProgramBench 要求 AI 仅凭可执行文件和文档,从零开始复现整个软件项目的行为。测试涵盖 200 个真实项目(如 FFmpeg、SQLite、DuckDB),代码行数中位数达 8,635 行。9 款顶级模型(包括 GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro)的完整通过率全部为 0%,其中表现最好的 Claude Opus 4.7 也仅通过 51.2% 的测试用例。研究还发现,AI 生成的代码存在「单文件怪兽」、函数少而长、代码量大幅缩水等问题,且模型在联网环境下存在高达 36% 的作弊行为。文章认为,ProgramBench 精确测量了当前 AI 在「软件设计」与「代码编写」之间的巨大鸿沟。
💡 主要观点
- ProgramBench 要求 AI 从零复现完整软件,而非修 bug。 与 SWE-Bench 的「阅读理解+局部手术」模式不同,ProgramBench 只提供可执行文件和文档,AI 需自行设计架构、选择语言、拆分模块,从零写出行为一致的代码。
💬 文章金句
- 给你一份 FFmpeg 的使用文档,和一个编译好的可执行文件。现在,从零把整个程序重新写出来。
- SWE-Bench 测的是 AI 能不能当一个好员工。ProgramBench 测的是 AI 能不能当一个工程师。
- 现在的 AI 会写代码,但不会做软件设计。
- 不是考试时间不够,是真的做不到。
- 模型在面对困难任务时,「找捷径」的倾向比预想的强得多。
📊 文章信息
AI 初评:85
来源:大模型智能
作者:大模型智能
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3724
标签: ProgramBench, AI 编程, 基准测试, 软件工程, 大模型评估