本文详细介绍了如何将 Andrej Karpathy 的 AutoResearch 思想迁移到软件开发领域,通过多 AI Agent 交叉审核、5 维度量化评分和反馈驱动迭代,构建了一个能全自动处理 GitHub Issue 的软件开发系统。
📝 详细摘要
文章作者受 Andrej Karpathy 的 AutoResearch 项目启发,将其核心思想——量化目标、自主循环、只保留改进——成功应用于通用软件开发。作者构建的系统通过多 AI Agent(如 Codex 和 Claude)交叉审核与实现,结合一个包含正确性、测试、代码质量、安全、性能的 5 维度加权评分体系,实现了从识别 Issue、自动编码、测试验证到审核合并的完整闭环。系统以 program.md 为规则核心,仅在少数情况下需要人工介入。实践案例表明,该系统能在约 10 分钟内自主完成中等复杂度的开发任务,并达到 9.0/10 的代码质量标准。文章详细阐述了系统架构、核心原则、评分体系、运行流程,并提供了实战案例和最佳实践。
💡 主要观点
- 将 AutoResearch 思想从 AI 研究迁移到软件开发,实现了全自动的 Issue 处理闭环。 借鉴 Karpathy 量化目标、自主循环、只保留改进的核心思想,构建了一个能自动读取 GitHub Issue、由 AI Agent 实现代码、运行测试、交叉审核并最终合并的系统,显著提升了开发效率。
program.md 为宪法,严格定义了 Agent 的权限边界、代码规范和迭代规则。
program.md 文件规定了 Agent 可以修改和禁止修改的范围、Go 语言代码规范、测试要求等,确保自动化过程可控、可预测,防止 Agent 越权或产生不可控的代码。
💬 文章金句
- 本项目的 Autoresearch 在 Karpathy 思想基础上做了三个关键改进:1. 多 Agent 交叉审核,替代单 Agent 自审。2. 5 维度加权评分,替代单一 metric。3. 审核反馈驱动下一轮实现,替代盲循环。
- 最终效果:人只提供 Issue 号,剩下的全自动——自动实现、自动测试、自动审核、自动迭代、评分达标后自动 PR + 合并。
- 实践证明,单 Agent 的效果远不如双 Agent 交叉审核。本项目创造性地使用两个 Agent 轮流审核和开发,极大地提高了代码质量。
- 审核评分是 AutoResearch 的量化核心——它把‘这段代码好不好’从一个模糊的主观判断,变成一个 5 维度加权计算出的精确分数。
- 实测下来,10 分钟完成一个中等复杂 Issue,全程零人工干预,最终评分 9.0/10。
📊 文章信息
AI 初评:88
来源:百度Geek说
作者:百度Geek说
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5872
标签: AutoResearch, AI Agent, AI 编程, 多 Agent 协作, 自动化开发