4 亿 token 买来 5 个教训：让 6 个 AI Agent 连写 4 天代码发生了什么？

📌 一句话摘要

本文通过一个为期四天的多 Agent 自动化编程实战，揭示了在构建 AI 系统时，围绕 Agent 的「胶水代码」和工程化稳定性比 Prompt 设计更具挑战且更为关键。

📝 详细摘要

作者构建了一个包含 Lead、Worker、Gatekeeper 和 Watchdog 四种角色的 6 人 AI Agent 团队，旨在自动化迭代 TypeScript 项目。在连续运行的四天中，系统经历了从频繁崩溃、进程卡死到监控误杀等一系列工程问题。通过消耗 4 亿 token 的实战，作者总结出五个核心教训：虚假监控的危险性、系统能力的演化本质、排查问题的认知偏差、工具数据的交叉验证，以及「胶水代码」在系统稳定性中的决定性作用。文章强调，AI 时代的工程重点正从代码编写转向系统治理和边界处理。

💡 主要观点

- 「胶水代码」是 AI Agent 系统能否落地的核心瓶颈。 进程管理、错误检测、环境隔离等非核心功能的代码量占总比 80% 以上，且绝大多数致命 bug 均源于这些连接环节而非 Agent 本身。

有监控但监控失效比没有监控更危险。 失效的监控会提供「虚假安全感」，降低开发者的警觉性，导致问题被掩盖更长时间，监控应具备改变结果的能力而非仅仅是展示。

完善的 AI 系统是基于真实故障「生长」出来的，而非预设。 预先设计的架构往往无法覆盖真实环境的复杂度，如环境变量污染、输出缓冲行为等，有用的防护机制多是在踩坑后迭代产生的。

排查 AI 系统问题应遵循 OVA 法，先验证观测手段。 在怀疑 Agent 逻辑前，应先检查监控工具和数据采集（如日志流式输出）是否可靠，避免因「尺子」不准导致错误的排查方向。

💬 文章金句

- 能检查但不能改变结果的监控，不是安全网，是遮羞布。

我之前觉得 Agent 的 prompt 设计才是核心，现在回头看，边界处理逻辑比 prompt 更容易出问题，也更重要。
有用的机制——互斥锁、多维心跳、流式日志——全是被故障教出来的。
重视你的「胶水」工作。它不性感，但决定了整个系统能不能跑起来。

📊 文章信息

AI 评分：92

来源：腾讯云开发者

作者：腾讯云开发者

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5051

标签： AI Agent, 多智能体系统, 自动化编程, 工程实践, 系统监控

阅读完整文章

4 亿 token 买来 5 个教训：让 6 个 AI Agent 连写 4 天代码发生了什么？

🤖 問 AI