← 回總覽

首篇 Agent Harness 综述:模型之外,Agent 拼什么?

📅 2026-05-19 15:10 PaperWeekly 人工智能 2 分鐘 1630 字 評分: 88
Agent Harness ETCLOVG AI Agent 系统工程 可靠性
📌 一句话摘要 本文综述了 CMU、Yale、Amazon 等机构提出的 Agent Harness Engineering 概念,将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全整合为 ETCLOVG 七层架构,论证了模型之外的系统工程对 Agent 可靠性的决定性影响。 📝 详细摘要 本文是对 CMU、Yale、Amazon 等机构联合发布的综述论文《Agent Harness Engineering: A Survey》的深度解读。文章指出,当模型能力不再是唯一变量,Agent 的可靠性越来越取决于其外部的系统工程——即 Agent Harness。作者提

📌 一句话摘要

本文综述了 CMU、Yale、Amazon 等机构提出的 Agent Harness Engineering 概念,将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全整合为 ETCLOVG 七层架构,论证了模型之外的系统工程对 Agent 可靠性的决定性影响。

📝 详细摘要

本文是对 CMU、Yale、Amazon 等机构联合发布的综述论文《Agent Harness Engineering: A Survey》的深度解读。文章指出,当模型能力不再是唯一变量,Agent 的可靠性越来越取决于其外部的系统工程——即 Agent Harness。作者提出了 ETCLOVG 七层架构,将 Agent 系统拆解为执行环境与沙盒(E)、工具接口与协议(T)、上下文与记忆管理(C)、生命周期与编排(L)、可观测性与运维(O)、验证与评估(V)以及治理与安全(G)。文章通过固定模型、改动 Harness 的实验数据(如 Terminal-Bench 2.0 成绩从 52.8% 提升到 66.5%)证明了 Harness 工程的价值。此外,文章还分析了当前开源生态中各层的项目分布情况,指出了生命周期层最为密集,而可观测性和治理层相对分散。最后,文章提出了五个开放研究方向,包括执行底座加固、长任务状态维持、基于轨迹的失败诊断、标准化交接机制以及随模型能力调整 Harness。

💡 主要观点

- Agent 的真实可靠性由执行控制、反馈循环、治理、评测和运维设计共同塑造,而非仅由模型能力决定。 论文通过固定模型、改动 Harness 的实验证明,仅调整工具格式和周边系统即可在编码基准测试上带来最高 10 倍的性能提升,说明系统层设计是影响 Agent 表现的关键变量。

ETCLOVG 七层架构为 Agent 系统工程提供了统一的术语和框架。 该架构将执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和治理安全纳入同一系统,帮助从业者系统性地理解和优化 Agent 系统的各个组件。
Agent 生态正从框架走向平台,后者需提供持久工作区、身份管理、可观测性、评测和治理等完整能力。 框架主要封装工具、记忆和执行循环,而平台还需解决跨层耦合、状态持久化、安全治理等生产级问题,这是构建可靠 Agent 系统的必然趋势。

💬 文章金句

- 当模型能力不再是唯一变量,Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。

  • 不改模型权重,只调整编辑工具格式和周边 Harness,就能在编码基准测试上带来最高 10 倍提升。
  • Harness 改动需要按系统改动来测试,不能只看单个组件指标。
  • 对长任务 Agent 而言,底层模型仍然重要,但 Harness 的工程质量已经成为影响真实可靠性的关键变量之一。

📊 文章信息

AI 初评:88

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3054

标签: Agent Harness, ETCLOVG, AI Agent, 系统工程, 可靠性

阅读完整文章

查看原文 → 發佈: 2026-05-19 15:10:00 收錄: 2026-05-20 00:00:06

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。