我把 Karpathy 的 AutoResearch 搬到了软件开发领域，效果炸了

📌 一句话摘要

本文详细介绍了如何将 Andrej Karpathy 的 AutoResearch 思想迁移到软件开发领域，通过多 AI Agent 交叉审核、5 维度量化评分和反馈驱动迭代，构建了一个能全自动处理 GitHub Issue 的软件开发系统。

📝 详细摘要

文章作者受 Andrej Karpathy 的 AutoResearch 项目启发，将其核心思想——量化目标、自主循环、只保留改进——成功应用于通用软件开发。作者构建的系统通过多 AI Agent（如 Codex 和 Claude）交叉审核与实现，结合一个包含正确性、测试、代码质量、安全、性能的 5 维度加权评分体系，实现了从识别 Issue、自动编码、测试验证到审核合并的完整闭环。系统以 program.md 为规则核心，仅在少数情况下需要人工介入。实践案例表明，该系统能在约 10 分钟内自主完成中等复杂度的开发任务，并达到 9.0/10 的代码质量标准。文章详细阐述了系统架构、核心原则、评分体系、运行流程，并提供了实战案例和最佳实践。

💡 主要观点

- 将 AutoResearch 思想从 AI 研究迁移到软件开发，实现了全自动的 Issue 处理闭环。 借鉴 Karpathy 量化目标、自主循环、只保留改进的核心思想，构建了一个能自动读取 GitHub Issue、由 AI Agent 实现代码、运行测试、交叉审核并最终合并的系统，显著提升了开发效率。

采用多 AI Agent 交叉审核机制，替代单 Agent 自审，有效提升了代码质量。 让 Codex 和 Claude 等不同模型轮流担任实现者和审核者，利用不同模型的强项和视角差异，能发现单 Agent 难以察觉的问题，形成有效的质量对抗链。

设计了 5 维度加权评分体系，将主观的代码质量判断转化为客观的量化指标。 通过正确性（35%）、测试（25%）、代码质量（20%）、安全（10%）、性能（10%）五个维度的加权评分，设定总分 ≥ 9.0 的达标线，为 AI 的自主迭代提供了明确的优化目标。

系统以 program.md 为宪法，严格定义了 Agent 的权限边界、代码规范和迭代规则。 program.md 文件规定了 Agent 可以修改和禁止修改的范围、Go 语言代码规范、测试要求等，确保自动化过程可控、可预测，防止 Agent 越权或产生不可控的代码。

💬 文章金句

- 本项目的 Autoresearch 在 Karpathy 思想基础上做了三个关键改进：1. 多 Agent 交叉审核，替代单 Agent 自审。2. 5 维度加权评分，替代单一 metric。3. 审核反馈驱动下一轮实现，替代盲循环。

最终效果：人只提供 Issue 号，剩下的全自动——自动实现、自动测试、自动审核、自动迭代、评分达标后自动 PR + 合并。
实践证明，单 Agent 的效果远不如双 Agent 交叉审核。本项目创造性地使用两个 Agent 轮流审核和开发，极大地提高了代码质量。
审核评分是 AutoResearch 的量化核心——它把‘这段代码好不好’从一个模糊的主观判断，变成一个 5 维度加权计算出的精确分数。
实测下来，10 分钟完成一个中等复杂 Issue，全程零人工干预，最终评分 9.0/10。

📊 文章信息

AI 初评：88

来源：百度Geek说

作者：百度Geek说

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5872

标签： AutoResearch, AI Agent, AI 编程, 多 Agent 协作, 自动化开发

阅读完整文章

我把 Karpathy 的 AutoResearch 搬到了软件开发领域，效果炸了

🤖 問 AI