← 回總覽

Claude 写代码错误率从 41%降到 11%:Karpathy 的 4 条规则为什么不够

📅 2026-05-11 11:28 高可用架构 人工智能 2 分鐘 1677 字 評分: 88
Claude Code CLAUDE.md AI 编码 提示工程 Karpathy
📌 一句话摘要 本文基于 6 周 30 个代码库的实测数据,将 Karpathy 的 4 条 Claude 编码规则扩展至 12 条,将任务错误率从 41% 降至 3%,并详细解释了每条新规则对应的真实失败模式。 📝 详细摘要 本文深入探讨了如何通过精心设计的 CLAUDE.md 文件来显著提升 Claude AI 编码的稳定性和一致性。作者首先肯定了 Karpathy 原始 4 条规则(先思考、简单优先、手术式修改、目标驱动)的价值,指出其能将约 40% 的错误率降至 3% 以下。然而,作者认为这 4 条规则主要针对 2026 年 1 月的编码问题,无法覆盖 2026 年 5 月出现的

📌 一句话摘要

本文基于 6 周 30 个代码库的实测数据,将 Karpathy 的 4 条 Claude 编码规则扩展至 12 条,将任务错误率从 41% 降至 3%,并详细解释了每条新规则对应的真实失败模式。

📝 详细摘要

本文深入探讨了如何通过精心设计的 CLAUDE.md 文件来显著提升 Claude AI 编码的稳定性和一致性。作者首先肯定了 Karpathy 原始 4 条规则(先思考、简单优先、手术式修改、目标驱动)的价值,指出其能将约 40% 的错误率降至 3% 以下。然而,作者认为这 4 条规则主要针对 2026 年 1 月的编码问题,无法覆盖 2026 年 5 月出现的 agent 编排、多步骤工作流、token 预算等新挑战。因此,作者基于 6 周 30 个代码库的实测数据,新增了 8 条规则,包括:避免模型做非语言工作、设定硬性 token 预算、暴露冲突而非折中、先读再写、测试验证意图而非行为、多步骤任务设置检查点、遵循代码库约定、以及失败要显眼。文章通过具体案例解释了每条新规则的必要性,并提供了可直接复制粘贴的完整 12 条 CLAUDE.md 文件。作者强调,CLAUDE.md 应是一份基于自身失败模式定制的行为契约,而非愿望清单,并提供了关于如何安装和精简规则的建议。

💡 主要观点

- Karpathy 的 4 条规则是基础,但不足以应对 2026 年 5 月的 agent 驱动、多步骤编码工作流。 原始规则主要解决静默假设、过度工程等单次交互问题,但无法处理 agent 冲突、token 预算超支、多步骤任务断裂等新问题,需要补充新规则。

新增的 8 条规则针对特定的、可观察的失败模式,每条规则都有明确的适用场景和验证方法。 例如,规则 5 防止模型做路由等确定性工作,规则 6 设定硬性 token 预算避免上下文失控,规则 10 要求多步骤任务设置检查点,防止错误累积。
CLAUDE.md 应是一份基于自身失败模式定制的行为契约,而非包含所有偏好的愿望清单。 作者强调,超过 200 行或 14 条规则后,遵循率会显著下降。最佳实践是理解每条规则背后的失败模式,只保留那些能解决自身实际问题的规则。
测试应验证意图而非行为,避免 Claude 写出通过浅层测试但破坏业务逻辑的代码。 规则 9 指出,如果测试无法在业务逻辑变化时失败,那么它就是无用的。测试必须编码 WHY 行为重要,而不仅仅是 WHAT 行为。

💬 文章金句

- CLAUDE.md 不是愿望清单。它是一份行为契约,用来关闭你已经观察到的具体失败模式。

  • 最昂贵的 Claude 失败,是那些看起来像成功的失败。
  • 一份根据你真实失败模式调过的 6 条规则 CLAUDE.md,胜过一份有 6 条你永远用不上的 12 条规则文件。
  • Karpathy 的 4 条防的是他在 2026 年 1 月看到的失败模式...我加的 8 条防的是 2026 年 5 月出现的失败模式。

📊 文章信息

AI 初评:88

来源:高可用架构

作者:高可用架构

分类:人工智能

语言:中文

阅读时间:23 分钟

字数:5550

标签: Claude Code, CLAUDE.md, AI 编码, 提示工程, Karpathy

阅读完整文章

查看原文 → 發佈: 2026-05-11 11:28:00 收錄: 2026-05-11 18:00:05

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。