北京大学与百度联合提出 RepoZero,首个可验证的仓库级代码生成基准,通过跨语言复现任务和自验证框架 ACE,评测 LLM 从零构建完整代码仓库的能力。
📝 详细摘要
本文介绍了北京大学与百度联合团队提出的 RepoZero,这是一个全新的代码生成评测基准,旨在评估大语言模型从零生成完整软件仓库的能力。与传统的单函数或小规模编辑任务不同,RepoZero 要求模型仅依据 API 描述,跨语言(如 Python 转 JavaScript、C/C++ 转 Rust)复现整个仓库,并通过隐藏测试集进行严格验证。论文还提出了 Agentic Code-Test Evolution(ACE)框架,让 AI 在生成代码后自动编写测试、运行测试、分析错误并迭代修复。实验结果显示,当前最先进的模型在仓库级生成任务上成功率仅为 20%-40%,远未达到人类软件工程师的水平。RepoZero 为 AI 软件工程研究提供了自动化、可扩展、抗数据泄漏的评估平台。
💡 主要观点
- RepoZero 是首个可验证的仓库级代码生成基准。 它要求 LLM 从零生成完整代码仓库,而非仅补全函数或修复 Bug,通过隐藏测试集执行结果进行严格验证,提升了评测的客观性。
💬 文章金句
- RepoZero 关注的正是这一更具挑战性的目标:让 AI 在没有现成代码的情况下,仅依据 API 描述,重新实现整个代码仓库。
- RepoZero 使用真实执行结果进行严格验证:只有生成仓库的输出与原始仓库完全一致,才算成功。
- 未来真正强大的 AI 程序员,不只是「会写代码」,而是「会调试、会验证、会自我修正」。
- RepoZero 的意义不仅在于一个新 benchmark,更在于它重新定义了:「AI 软件工程能力」该如何评估。
📊 文章信息
AI 初评:86
来源:夕小瑶科技说
作者:夕小瑶科技说
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1595
标签: RepoZero, 代码生成, 仓库级生成, LLM 评测, ACE 框架