Agent Harness 解析：智能体架构深度拆解

📌 一句话摘要

本文深度拆解了 Agent Harness 的概念，将其定义为包裹 LLM 的完整软件基础设施，并系统阐述了其 12 个核心组件、运作循环及主流框架的实现方式。

📝 详细摘要

文章从生产级 AI Agent 开发中遇到的常见问题切入，正式引入了 Agent Harness 这一概念，即包裹 LLM 的完整软件基础设施，包括编排循环、工具、记忆、上下文管理等。文章指出，模型能力固然重要，但真正决定生产级 Agent 性能的是其周围的 Harness。作者详细拆解了生产级 Harness 的 12 个核心组件，如编排循环、工具、记忆、上下文管理、提示词构建、输出解析、状态管理、错误处理、护栏与安全、验证循环和子 Agent 编排。文章还通过逐步演练展示了 Harness 循环的实际运作方式，并对比分析了 Anthropic、OpenAI、LangGraph、CrewAI 和 AutoGen 等主流框架的实现模式。最后，文章总结了每个 Harness 都面临的七个关键决策，并强调了 Harness 作为产品核心竞争力的重要性。

💡 主要观点

- Agent Harness 是包裹 LLM 的完整软件基础设施，是决定生产级 Agent 性能的关键。 文章通过 LangChain 在 TerminalBench 上的案例证明，仅改变 Harness 而不改动模型权重，就能显著提升 Agent 性能，说明 Harness 是比模型本身更值得关注的工程领域。

生产级 Harness 包含 12 个核心组件，如编排循环、工具、记忆、上下文管理等。 文章详细拆解了这些组件，并指出上下文管理是很多 Agent 悄然失败的地方，需要采用压缩、观察屏蔽、即时检索等策略来对抗上下文腐烂。

主流框架（Anthropic、OpenAI、LangGraph 等）以不同方式实现了 Harness 模式。 Anthropic 采用薄 Harness 和笨循环，将智能交给模型；OpenAI 的 SDK 是代码优先的；LangGraph 将 Harness 建模为显式状态图。这些不同的实现反映了对 Harness 厚度的不同取舍。

Harness 设计面临七个关键决策，包括单/多 Agent、ReAct/计划-执行、Harness 厚度等。 文章建议优先尝试单 Agent 方案，并指出随着模型能力提升，Harness 应趋向更薄，但不会消失。Harness 设计是产品差异化的核心。

💬 文章金句

- 如果你不是模型本身，你就是 harness。

裸 LLM 是没有内存、没有硬盘、没有 I/O 的 CPU。上下文窗口是内存，快但有限；外部数据库是硬盘，大但慢；工具集成是设备驱动；Harness 是操作系统。
下次你的 agent 失败时，不要怪模型，看看 Harness。
使用相同模型的两个产品，仅凭 Harness 设计就可以产生截然不同的性能。

📊 文章信息

AI 初评：88

来源：AI寒武纪

作者：AI寒武纪

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6863

标签： Agent Harness, AI Agent, LLM, 架构设计, 工程实践

阅读完整文章

Agent Harness 解析：智能体架构深度拆解

🤖 問 AI