我把 Karpathy 的 AutoResearch 搬到了软件开发领域，效果炸了

📌 一句话摘要

本文详细介绍了如何将 Karpathy 的 AutoResearch 方法迁移到软件开发领域，通过多 Agent 交叉审核、5 维度量化评分和反馈驱动迭代，构建了一个全自动的软件开发系统，能在约 10 分钟内自主完成中等复杂度的开发任务。

📝 详细摘要

本文作者受 Karpathy 在 AI 研究领域提出的 AutoResearch 方法启发，将其核心思想——量化目标、自主循环、只保留改进——迁移到软件开发领域，构建了一个名为 autoresearch 的全自动软件开发系统。该系统以 program.md 为规则核心，通过多 Agent（Codex 和 Claude）交叉审核、5 维度加权评分（正确性、测试、代码质量、安全、性能）和反馈驱动迭代三大改进，实现了从 GitHub Issue 识别、代码实现、测试验证到审核合并的完整闭环。文章详细介绍了系统的架构、核心原则、审核评分体系、优化循环、核心文件、Issue 选择策略、错误处理机制以及多个实战案例。实践表明，该系统能在约 10 分钟内自主完成中等复杂度的开发任务，并达到 9.0/10 的代码质量标准，显著提升了开发效率并降低了人力成本。

💡 主要观点

- 将 Karpathy 的 AutoResearch 方法成功迁移到软件开发领域，实现全自动开发闭环。 借鉴 AutoResearch 的量化目标、自主循环和只保留改进的核心思想，将其应用于软件开发，构建了从 Issue 识别到代码合并的全自动系统。

多 Agent 交叉审核机制是提升代码质量的关键改进。 让 Codex 和 Claude 轮流担任实现者和审核者，利用不同模型的盲区和强项进行交叉验证，能有效发现单 Agent 自审无法发现的问题，显著提升代码质量。

5 维度加权评分体系将代码质量评估从主观判断转化为量化指标。 通过正确性、测试、代码质量、安全和性能五个维度的加权评分，设定 9.0/10 的达标线，为迭代循环提供了明确的终止条件，确保产出代码的质量。

审核反馈驱动下一轮实现，形成持续改进的闭环。 将上一轮的审核反馈直接传入下一轮 Agent 的提示词，使 Agent 能针对具体问题进行改进，避免了盲循环，提高了迭代效率。

💬 文章金句

- 核心思想是：把 AI 研究本身也交给 AI 来自主完成。

把'修改 train.py → 跑 5 分钟实验 → val loss 改善才保留'，替换成'实现 GitHub Issue → 跑测试 → 多维评分达标才合并'——这就是本项目的起点。
本项目让 Codex 和 Claude 轮流担任实现者和审核者：A 写完 B 审，B 写完 A 审。不同模型有不同的盲区和强项，交叉审核能发现单 Agent 发现不了的问题。
最终效果：人只提供 Issue 号，剩下的全自动——自动实现、自动测试、自动审核、自动迭代、评分达标后自动 PR + 合并。

📊 文章信息

AI 初评：87

来源：高可用架构

作者：高可用架构

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5847

标签： AutoResearch, AI Agent, 软件开发自动化, 多Agent协作, 代码质量

阅读完整文章

我把 Karpathy 的 AutoResearch 搬到了软件开发领域，效果炸了

🤖 問 AI