#577.长时运行 Agent：开发者如何让 AI 连续干活不跑偏，模型前沿快速迁移下的工程取舍

📌 一句话摘要

Anthropic 应用 AI 团队深度拆解长时运行 Agent 的核心挑战与工程实践，系统阐述模型能力与脚手架（harness）如何协同演进，以及生成器-评估器对抗式协作范式如何实现数小时稳定运行并产出高质量应用。

📝 详细摘要

本期节目深度分享了 Anthropic 团队在构建能够连续运行数小时甚至数天的 AI Agent 方面的核心技术理念与工程实践。分享从 Claude Code 和 Agent SDK 的演进史切入，系统性地回顾了模型从仅能运行 20 分钟到如今在合适的 harness 下可稳定工作数日的历程。Andrew 详细阐述了长时运行 Agent 面临的三大核心难题：上下文窗口限制与迷失、规划能力的欠缺、以及模型不擅长自我评估，并指出了解决路径——将能力训入模型与用外部脚手架补齐短板。Ash 则进一步介绍了内部正在实验的、借鉴 GAN 思想的全新 harness 模式：将规划器（Planner）、生成器（Generator）和评估器（Evaluator）拆分为独立角色。其核心创新在于，让生成器与评估器在动手开发前先通过“契约”协商"什么叫完成"，并由独立的评估器通过真实操作（如使用 Playwright 打开页面点击测试）来执行严格评分，从而有效避免了模型自我评估时的迎合与草率。通过复古游戏制作器与音乐 DAW 等实际案例，分享展示了这一模式如何显著提升应用的完整性与功能性。最后，分享强调了制作 Agent 的核心手艺是“读 traces”，并提出了包括“不要自评”、“主观质量可评分”在内的五个关键实践建议，为 AI 开发者与产品经理提供了极具操作价值的指导。

💡 主要观点

- 能可预测地失败，比不可预测地成功更好。 在非确定性的模型世界中，一个简单但重要的工程原则是构建可预测的失败模式。通过将任务拆开、开启新上下文、并设定明确的退出条件来控制风险，比追求一次性完美成功更具工程可靠性。

模型前沿并不会真的缩小，它只是会移动。 随着基础模型能力增强，外部脚手架不会消失，而是不断演化。过去必须用复杂 harness 解决的问题（如频繁开新上下文），在新模型上可能被服务端压缩和超大上下文窗口简化，但对齐、规划和判断等新挑战会涌现出来。

采用生成器-评估器对抗式协作，解决智能体自我审视的盲点。 让一个模型自我评估极易产生迎合与宽容偏差。将角色拆分为负责构建的生成器和严格批评的评估器，并使评估器通过真实浏览器操作进行测试，是提升产出的关键。调优独立评估器比构建一个具备自批评能力的模型要容易得多。

“什么叫完成”需要由生成器和评估器通过“契约”事先协商确定。 在生成一行代码前，两个 Agent 会就功能范围与测试标准进行辩论并达成一份可测试的“契约”。这种做法将模糊的规划细化为具体可执行的断言，能有效防止规划错误在长任务中被不断放大，是实现长时间尺度下方向校正的核心创新。

制作 Agent 的核心手艺是耐心阅读运行轨迹。 调试 Agent harness 没有捷径，关键就是手动一行行阅读模型输出，发现其判断与人类预期不符的地方，再将这些洞察写回 prompt、技能或系统指令中。只有这样，开发者才能真正理解模型为何跑偏，并决定如何精简脚手架。

💬 文章金句

- 能以可预测的方式失败，比以不可预测的方式成功更好。

前沿并不会真的缩小，它只是会移动。
标准模糊，批评就会模糊。generator 只会耸耸肩，然后随便改点东西。
如果你对东西应该长什么样有明确看法，那就逼自己把它写下来。
只有这样，你才真正知道 scaffold 里哪些部分该删，哪些部分该留。

📊 文章信息

AI 初评：88

来源：跨国串门儿计划

作者：跨国串门儿计划

分类：人工智能

语言：中文

阅读时间：94 分钟

字数：23415

标签： AI Agent, Claude Code, 软件工程, LLM, Agent SDK

收听完整播客

#577.长时运行 Agent：开发者如何让 AI 连续干活不跑偏，模型前沿快速迁移下的工程取舍

🤖 問 AI