← 回總覽

北大提出首个可验证的仓库级生成基准 RepoZero,评测 LLM 能否从 0 生成一个代码仓库

📅 2026-05-21 16:47 夕小瑶科技说 人工智能 2 分鐘 1475 字 評分: 86
RepoZero 代码生成 仓库级生成 LLM 评测 ACE 框架
📌 一句话摘要 北京大学与百度联合提出 RepoZero,首个可验证的仓库级代码生成基准,通过跨语言复现任务和自验证框架 ACE,评测 LLM 从零构建完整代码仓库的能力。 📝 详细摘要 本文介绍了北京大学与百度联合团队提出的 RepoZero,这是一个全新的代码生成评测基准,旨在评估大语言模型从零生成完整软件仓库的能力。与传统的单函数或小规模编辑任务不同,RepoZero 要求模型仅依据 API 描述,跨语言(如 Python 转 JavaScript、C/C++ 转 Rust)复现整个仓库,并通过隐藏测试集进行严格验证。论文还提出了 Agentic Code-Test Evolutio

📌 一句话摘要

北京大学与百度联合提出 RepoZero,首个可验证的仓库级代码生成基准,通过跨语言复现任务和自验证框架 ACE,评测 LLM 从零构建完整代码仓库的能力。

📝 详细摘要

本文介绍了北京大学与百度联合团队提出的 RepoZero,这是一个全新的代码生成评测基准,旨在评估大语言模型从零生成完整软件仓库的能力。与传统的单函数或小规模编辑任务不同,RepoZero 要求模型仅依据 API 描述,跨语言(如 Python 转 JavaScript、C/C++ 转 Rust)复现整个仓库,并通过隐藏测试集进行严格验证。论文还提出了 Agentic Code-Test Evolution(ACE)框架,让 AI 在生成代码后自动编写测试、运行测试、分析错误并迭代修复。实验结果显示,当前最先进的模型在仓库级生成任务上成功率仅为 20%-40%,远未达到人类软件工程师的水平。RepoZero 为 AI 软件工程研究提供了自动化、可扩展、抗数据泄漏的评估平台。

💡 主要观点

- RepoZero 是首个可验证的仓库级代码生成基准。 它要求 LLM 从零生成完整代码仓库,而非仅补全函数或修复 Bug,通过隐藏测试集执行结果进行严格验证,提升了评测的客观性。

跨语言复现任务有效防止模型记忆 GitHub 代码。 RepoZero 设计了 Py2JS 和 C2Rust 任务,要求模型将一种语言的仓库用另一种语言重新实现,迫使模型真正理解算法逻辑而非复制粘贴。
ACE 框架让 AI 学会自我测试与迭代修复。 Agentic Code-Test Evolution 形成「代码生成→自动测试→错误反馈→代码修复」闭环,实验表明多轮迭代能显著提升模型通过率。
当前最强模型在仓库级生成任务上远未达到人类水平。 即使顶级模型 Claude-4.6-Sonnet,成功率也仅为 20%-40%,主要失败原因包括长上下文遗忘、模块协作错误和测试覆盖不足。

💬 文章金句

- RepoZero 关注的正是这一更具挑战性的目标:让 AI 在没有现成代码的情况下,仅依据 API 描述,重新实现整个代码仓库。

  • RepoZero 使用真实执行结果进行严格验证:只有生成仓库的输出与原始仓库完全一致,才算成功。
  • 未来真正强大的 AI 程序员,不只是「会写代码」,而是「会调试、会验证、会自我修正」。
  • RepoZero 的意义不仅在于一个新 benchmark,更在于它重新定义了:「AI 软件工程能力」该如何评估。

📊 文章信息

AI 初评:86

来源:夕小瑶科技说

作者:夕小瑶科技说

分类:人工智能

语言:中文

阅读时间:7 分钟

字数:1595

标签: RepoZero, 代码生成, 仓库级生成, LLM 评测, ACE 框架

阅读完整文章

查看原文 → 發佈: 2026-05-21 16:47:00 收錄: 2026-05-22 00:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。