Claude 写代码错误率从 41%降到 11%：Karpathy 的 4 条规则为什么不够

📌 一句话摘要

本文基于 6 周 30 个代码库的实测数据，将 Karpathy 的 4 条 Claude 编码规则扩展至 12 条，将任务错误率从 41% 降至 3%，并详细解释了每条新规则对应的真实失败模式。

📝 详细摘要

本文深入探讨了如何通过精心设计的 CLAUDE.md 文件来显著提升 Claude AI 编码的稳定性和一致性。作者首先肯定了 Karpathy 原始 4 条规则（先思考、简单优先、手术式修改、目标驱动）的价值，指出其能将约 40% 的错误率降至 3% 以下。然而，作者认为这 4 条规则主要针对 2026 年 1 月的编码问题，无法覆盖 2026 年 5 月出现的 agent 编排、多步骤工作流、token 预算等新挑战。因此，作者基于 6 周 30 个代码库的实测数据，新增了 8 条规则，包括：避免模型做非语言工作、设定硬性 token 预算、暴露冲突而非折中、先读再写、测试验证意图而非行为、多步骤任务设置检查点、遵循代码库约定、以及失败要显眼。文章通过具体案例解释了每条新规则的必要性，并提供了可直接复制粘贴的完整 12 条 CLAUDE.md 文件。作者强调，CLAUDE.md 应是一份基于自身失败模式定制的行为契约，而非愿望清单，并提供了关于如何安装和精简规则的建议。

💡 主要观点

- Karpathy 的 4 条规则是基础，但不足以应对 2026 年 5 月的 agent 驱动、多步骤编码工作流。 原始规则主要解决静默假设、过度工程等单次交互问题，但无法处理 agent 冲突、token 预算超支、多步骤任务断裂等新问题，需要补充新规则。

新增的 8 条规则针对特定的、可观察的失败模式，每条规则都有明确的适用场景和验证方法。 例如，规则 5 防止模型做路由等确定性工作，规则 6 设定硬性 token 预算避免上下文失控，规则 10 要求多步骤任务设置检查点，防止错误累积。

CLAUDE.md 应是一份基于自身失败模式定制的行为契约，而非包含所有偏好的愿望清单。 作者强调，超过 200 行或 14 条规则后，遵循率会显著下降。最佳实践是理解每条规则背后的失败模式，只保留那些能解决自身实际问题的规则。

测试应验证意图而非行为，避免 Claude 写出通过浅层测试但破坏业务逻辑的代码。 规则 9 指出，如果测试无法在业务逻辑变化时失败，那么它就是无用的。测试必须编码 WHY 行为重要，而不仅仅是 WHAT 行为。

💬 文章金句

- CLAUDE.md 不是愿望清单。它是一份行为契约，用来关闭你已经观察到的具体失败模式。

最昂贵的 Claude 失败，是那些看起来像成功的失败。
一份根据你真实失败模式调过的 6 条规则 CLAUDE.md，胜过一份有 6 条你永远用不上的 12 条规则文件。
Karpathy 的 4 条防的是他在 2026 年 1 月看到的失败模式...我加的 8 条防的是 2026 年 5 月出现的失败模式。

📊 文章信息

AI 初评：88

来源：高可用架构

作者：高可用架构

分类：人工智能

语言：中文

阅读时间：23 分钟

字数：5550

标签： Claude Code, CLAUDE.md, AI 编码, 提示工程, Karpathy

阅读完整文章

Claude 写代码错误率从 41%降到 11%：Karpathy 的 4 条规则为什么不够

🤖 問 AI