北大提出首个可验证的仓库级生成基准 RepoZero，评测 LLM 能否从 0 生成一个代码仓库

📌 一句话摘要

北京大学与百度联合提出 RepoZero，首个可验证的仓库级代码生成基准，通过跨语言复现任务和自验证框架 ACE，评测 LLM 从零构建完整代码仓库的能力。

📝 详细摘要

本文介绍了北京大学与百度联合团队提出的 RepoZero，这是一个全新的代码生成评测基准，旨在评估大语言模型从零生成完整软件仓库的能力。与传统的单函数或小规模编辑任务不同，RepoZero 要求模型仅依据 API 描述，跨语言（如 Python 转 JavaScript、C/C++ 转 Rust）复现整个仓库，并通过隐藏测试集进行严格验证。论文还提出了 Agentic Code-Test Evolution（ACE）框架，让 AI 在生成代码后自动编写测试、运行测试、分析错误并迭代修复。实验结果显示，当前最先进的模型在仓库级生成任务上成功率仅为 20%-40%，远未达到人类软件工程师的水平。RepoZero 为 AI 软件工程研究提供了自动化、可扩展、抗数据泄漏的评估平台。

💡 主要观点

- RepoZero 是首个可验证的仓库级代码生成基准。 它要求 LLM 从零生成完整代码仓库，而非仅补全函数或修复 Bug，通过隐藏测试集执行结果进行严格验证，提升了评测的客观性。

跨语言复现任务有效防止模型记忆 GitHub 代码。 RepoZero 设计了 Py2JS 和 C2Rust 任务，要求模型将一种语言的仓库用另一种语言重新实现，迫使模型真正理解算法逻辑而非复制粘贴。

ACE 框架让 AI 学会自我测试与迭代修复。 Agentic Code-Test Evolution 形成「代码生成→自动测试→错误反馈→代码修复」闭环，实验表明多轮迭代能显著提升模型通过率。

当前最强模型在仓库级生成任务上远未达到人类水平。 即使顶级模型 Claude-4.6-Sonnet，成功率也仅为 20%-40%，主要失败原因包括长上下文遗忘、模块协作错误和测试覆盖不足。

💬 文章金句

- RepoZero 关注的正是这一更具挑战性的目标：让 AI 在没有现成代码的情况下，仅依据 API 描述，重新实现整个代码仓库。

RepoZero 使用真实执行结果进行严格验证：只有生成仓库的输出与原始仓库完全一致，才算成功。
未来真正强大的 AI 程序员，不只是「会写代码」，而是「会调试、会验证、会自我修正」。
RepoZero 的意义不仅在于一个新 benchmark，更在于它重新定义了：「AI 软件工程能力」该如何评估。

📊 文章信息

AI 初评：86

来源：夕小瑶科技说

作者：夕小瑶科技说

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1595

标签： RepoZero, 代码生成, 仓库级生成, LLM 评测, ACE 框架

阅读完整文章

北大提出首个可验证的仓库级生成基准 RepoZero，评测 LLM 能否从 0 生成一个代码仓库

🤖 問 AI