别再刷 HumanEval 了！北大团队 RepoZero 揭示：LLM 从零建库成功率不足 60%

📌 一句话摘要

北大团队提出 RepoZero 基准，通过跨语言仓库复现任务评估 LLM 的仓库级代码生成能力，发现最强模型完成率不足 60%，并设计了 ACE 测试驱动迭代框架来提升性能。

📝 详细摘要

文章介绍了北京大学团队提出的 RepoZero 基准，旨在评估大语言模型在仓库级代码生成任务上的真实能力。RepoZero 将代码生成重构为逆向工程问题：给定 API 规格说明，模型需从零实现整个代码仓库，并通过真实测试套件验证。基准包含两大跨语言转换任务（Python→JavaScript 和 C/C++→Rust），共 600 个开源项目，采用四重质量保障机制防止数据泄露。实验结果显示，即使是 Claude 级别的最强模型，完成率也不到 60%，暴露了当前 AI 与真实软件工程之间的巨大鸿沟。为此，团队设计了 ACE（Agentic Code-Test Evolution）框架，通过编写代码→生成测试→运行验证→错误分析→迭代优化的闭环，显著提升了模型在高难度任务上的表现。文章还讨论了数据污染问题、测试生成能力瓶颈以及长程推理差距等关键洞察，并对模型开发、评测研究和工程实践提出了启示。

💡 主要观点

- RepoZero 通过跨语言仓库复现任务评估 LLM 的真实代码生成能力。 给定 API 规格说明，模型需从零实现整个代码仓库，并通过真实测试套件验证，避免了单函数基准的粒度过粗和数据泄露问题。

当前最强 LLM 的仓库级代码生成完成率不足 60%。 实验显示，即使是 Claude 级别的模型，在 RepoZero 基准上的完成率也仅在 30%-55% 之间，暴露了 AI 与真实软件工程之间的巨大鸿沟。

ACE 框架通过测试驱动的迭代优化显著提升模型性能。 ACE 框架将编码与测试形成闭环，强制模型进行代码生成、测试编写、运行验证和错误分析的迭代，在高难度任务上提升最为明显。

数据污染问题被现有基准严重低估，跨语言约束是有效的防泄漏设计。 现有基准的高分可能掩盖了模型的真实能力，RepoZero 的跨语言转换任务有效阻断了数据污染路径，提供了更可信的评估结果。

测试生成能力是模型突破性能天花板的核心瓶颈。 模型难以自主构建有效的测试套件来验证自身代码，ACE 实验证明自我验证能力是提升仓库级代码生成性能的关键路径。

💬 文章金句

- 当代码生成从「写一个函数」升级到「构建整个仓库」，大语言模型还能胜任吗？

即使是 Claude 级别模型，完成率也不到六成
仅靠模型的 coding 能力不足以完成仓库级生成
测试能力即生成能力
AI 助手≠AI 工程师

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2168

标签： RepoZero, 代码生成, LLM评估, 仓库级生成, ACE框架

阅读完整文章

别再刷 HumanEval 了！北大团队 RepoZero 揭示：LLM 从零建库成功率不足 60%

🤖 問 AI