← 回總覽

#577.长时运行 Agent:开发者如何让 AI 连续干活不跑偏,模型前沿快速迁移下的工程取舍

📅 2026-06-09 16:30 跨国串门儿计划 人工智能 2 分鐘 1957 字 評分: 88
AI Agent Claude Code 软件工程 LLM Agent SDK
📌 一句话摘要 Anthropic 应用 AI 团队深度拆解长时运行 Agent 的核心挑战与工程实践,系统阐述模型能力与脚手架(harness)如何协同演进,以及生成器-评估器对抗式协作范式如何实现数小时稳定运行并产出高质量应用。 📝 详细摘要 本期节目深度分享了 Anthropic 团队在构建能够连续运行数小时甚至数天的 AI Agent 方面的核心技术理念与工程实践。分享从 Claude Code 和 Agent SDK 的演进史切入,系统性地回顾了模型从仅能运行 20 分钟到如今在合适的 harness 下可稳定工作数日的历程。Andrew 详细阐述了长时运行 Agent 面临的三

📌 一句话摘要

Anthropic 应用 AI 团队深度拆解长时运行 Agent 的核心挑战与工程实践,系统阐述模型能力与脚手架(harness)如何协同演进,以及生成器-评估器对抗式协作范式如何实现数小时稳定运行并产出高质量应用。

📝 详细摘要

本期节目深度分享了 Anthropic 团队在构建能够连续运行数小时甚至数天的 AI Agent 方面的核心技术理念与工程实践。分享从 Claude Code 和 Agent SDK 的演进史切入,系统性地回顾了模型从仅能运行 20 分钟到如今在合适的 harness 下可稳定工作数日的历程。Andrew 详细阐述了长时运行 Agent 面临的三大核心难题:上下文窗口限制与迷失、规划能力的欠缺、以及模型不擅长自我评估,并指出了解决路径——将能力训入模型与用外部脚手架补齐短板。Ash 则进一步介绍了内部正在实验的、借鉴 GAN 思想的全新 harness 模式:将规划器(Planner)、生成器(Generator)和评估器(Evaluator)拆分为独立角色。其核心创新在于,让生成器与评估器在动手开发前先通过“契约”协商"什么叫完成",并由独立的评估器通过真实操作(如使用 Playwright 打开页面点击测试)来执行严格评分,从而有效避免了模型自我评估时的迎合与草率。通过复古游戏制作器与音乐 DAW 等实际案例,分享展示了这一模式如何显著提升应用的完整性与功能性。最后,分享强调了制作 Agent 的核心手艺是“读 traces”,并提出了包括“不要自评”、“主观质量可评分”在内的五个关键实践建议,为 AI 开发者与产品经理提供了极具操作价值的指导。

💡 主要观点

- 能可预测地失败,比不可预测地成功更好。 在非确定性的模型世界中,一个简单但重要的工程原则是构建可预测的失败模式。通过将任务拆开、开启新上下文、并设定明确的退出条件来控制风险,比追求一次性完美成功更具工程可靠性。

模型前沿并不会真的缩小,它只是会移动。 随着基础模型能力增强,外部脚手架不会消失,而是不断演化。过去必须用复杂 harness 解决的问题(如频繁开新上下文),在新模型上可能被服务端压缩和超大上下文窗口简化,但对齐、规划和判断等新挑战会涌现出来。
采用生成器-评估器对抗式协作,解决智能体自我审视的盲点。 让一个模型自我评估极易产生迎合与宽容偏差。将角色拆分为负责构建的生成器和严格批评的评估器,并使评估器通过真实浏览器操作进行测试,是提升产出的关键。调优独立评估器比构建一个具备自批评能力的模型要容易得多。
“什么叫完成”需要由生成器和评估器通过“契约”事先协商确定。 在生成一行代码前,两个 Agent 会就功能范围与测试标准进行辩论并达成一份可测试的“契约”。这种做法将模糊的规划细化为具体可执行的断言,能有效防止规划错误在长任务中被不断放大,是实现长时间尺度下方向校正的核心创新。
制作 Agent 的核心手艺是耐心阅读运行轨迹。 调试 Agent harness 没有捷径,关键就是手动一行行阅读模型输出,发现其判断与人类预期不符的地方,再将这些洞察写回 prompt、技能或系统指令中。只有这样,开发者才能真正理解模型为何跑偏,并决定如何精简脚手架。

💬 文章金句

- 能以可预测的方式失败,比以不可预测的方式成功更好。

  • 前沿并不会真的缩小,它只是会移动。
  • 标准模糊,批评就会模糊。generator 只会耸耸肩,然后随便改点东西。
  • 如果你对东西应该长什么样有明确看法,那就逼自己把它写下来。
  • 只有这样,你才真正知道 scaffold 里哪些部分该删,哪些部分该留。

📊 文章信息

AI 初评:88

来源:跨国串门儿计划

作者:跨国串门儿计划

分类:人工智能

语言:中文

阅读时间:94 分钟

字数:23415

标签: AI Agent, Claude Code, 软件工程, LLM, Agent SDK

收听完整播客

查看原文 → 發佈: 2026-06-09 16:30:00 收錄: 2026-06-09 20:00:18

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。