首篇 Agent Harness 综述：模型之外，Agent 拼什么？

📌 一句话摘要

本文综述了 CMU、Yale、Amazon 等机构提出的 Agent Harness Engineering 概念，将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全整合为 ETCLOVG 七层架构，论证了模型之外的系统工程对 Agent 可靠性的决定性影响。

📝 详细摘要

本文是对 CMU、Yale、Amazon 等机构联合发布的综述论文《Agent Harness Engineering: A Survey》的深度解读。文章指出，当模型能力不再是唯一变量，Agent 的可靠性越来越取决于其外部的系统工程——即 Agent Harness。作者提出了 ETCLOVG 七层架构，将 Agent 系统拆解为执行环境与沙盒（E）、工具接口与协议（T）、上下文与记忆管理（C）、生命周期与编排（L）、可观测性与运维（O）、验证与评估（V）以及治理与安全（G）。文章通过固定模型、改动 Harness 的实验数据（如 Terminal-Bench 2.0 成绩从 52.8% 提升到 66.5%）证明了 Harness 工程的价值。此外，文章还分析了当前开源生态中各层的项目分布情况，指出了生命周期层最为密集，而可观测性和治理层相对分散。最后，文章提出了五个开放研究方向，包括执行底座加固、长任务状态维持、基于轨迹的失败诊断、标准化交接机制以及随模型能力调整 Harness。

💡 主要观点

- Agent 的真实可靠性由执行控制、反馈循环、治理、评测和运维设计共同塑造，而非仅由模型能力决定。 论文通过固定模型、改动 Harness 的实验证明，仅调整工具格式和周边系统即可在编码基准测试上带来最高 10 倍的性能提升，说明系统层设计是影响 Agent 表现的关键变量。

ETCLOVG 七层架构为 Agent 系统工程提供了统一的术语和框架。 该架构将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全纳入同一系统，帮助从业者系统性地理解和优化 Agent 系统的各个组件。

Agent 生态正从框架走向平台，后者需提供持久工作区、身份管理、可观测性、评测和治理等完整能力。 框架主要封装工具、记忆和执行循环，而平台还需解决跨层耦合、状态持久化、安全治理等生产级问题，这是构建可靠 Agent 系统的必然趋势。

💬 文章金句

- 当模型能力不再是唯一变量，Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。

不改模型权重，只调整编辑工具格式和周边 Harness，就能在编码基准测试上带来最高 10 倍提升。
Harness 改动需要按系统改动来测试，不能只看单个组件指标。
对长任务 Agent 而言，底层模型仍然重要，但 Harness 的工程质量已经成为影响真实可靠性的关键变量之一。

📊 文章信息

AI 初评：88

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3054

标签： Agent Harness, ETCLOVG, AI Agent, 系统工程, 可靠性

阅读完整文章

首篇 Agent Harness 综述：模型之外，Agent 拼什么？

🤖 問 AI