← 回總覽

刚刚,一篇最全 Agent Harness 综述来了!

📅 2026-05-27 23:58 Datawhale 人工智能 2 分鐘 1781 字 評分: 89
Agent Harness ETCLOVG Agent 工程 可观测性 治理
📌 一句话摘要 本文系统综述了 Agent Harness Engineering 的概念、七层框架(ETCLOVG)和工程演进,强调模型外部的工程外壳是 Agent 从演示走向生产的关键。 📝 详细摘要 本文是对一篇由 CMU、Yale、JHU 等机构联合发表的 Agent Harness 综述论文的深度解读。文章指出,当前 Agent 研究的瓶颈已从模型能力转向模型外部的工程系统,即 Agent Harness。作者提出了 ETCLOVG 七层框架,涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和安全治理。文章梳理了从 Prompt Engineering 到 C

📌 一句话摘要

本文系统综述了 Agent Harness Engineering 的概念、七层框架(ETCLOVG)和工程演进,强调模型外部的工程外壳是 Agent 从演示走向生产的关键。

📝 详细摘要

本文是对一篇由 CMU、Yale、JHU 等机构联合发表的 Agent Harness 综述论文的深度解读。文章指出,当前 Agent 研究的瓶颈已从模型能力转向模型外部的工程系统,即 Agent Harness。作者提出了 ETCLOVG 七层框架,涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和安全治理。文章梳理了从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三次工程迁移,并强调可观测性和治理是生产级 Agent 的独立核心层。文章还讨论了成本-质量-速度三角、能力与控制矛盾等跨层问题,并指出 Agent 平台竞争将围绕整套 Harness 能力展开。最后,文章提醒 Harness 设计应随模型能力演进动态调整,避免过度加脚手架。

💡 主要观点

- Agent 性能瓶颈正从模型能力转向模型外部的工程系统(Harness)。 论文指出,在长任务、真实工具环境中,Agent 失败常因系统管理不善而非模型不够聪明。改进 Harness 可在不换模型的情况下带来数倍性能提升。

Agent 工程经历了从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三次迁移。 Prompt Engineering 解决如何与模型对话,Context Engineering 解决模型该看见什么,Harness Engineering 解决如何让模型在真实世界中可靠行动。
ETCLOVG 七层框架是构建生产级 Agent 的系统化指南。 该框架涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和安全治理,七层共同构成一个能跑长任务的完整 Agent 系统。
可观测性和治理是生产级 Agent 的独立核心层,而非附属功能。 Agent 执行真实操作时,必须知道它做了什么(可观测性)和被允许做什么(治理),否则无法定位失败原因或确保安全可控。
Agent 评估应从最终成功率转向基于完整执行轨迹的 trace-native 评估。 最终成功率掩盖了模型、提示词、工具、上下文等多变量影响,trace-native 评估通过记录完整执行轨迹来判断结果正确性、路径合理性和评估器可信度。

💬 文章金句

- 同一个模型,换一套执行外壳,表现可以完全不一样。

  • Prompt Engineering 解决的是「怎么跟模型说话」。Context Engineering 解决的是「模型该看见什么」。Harness Engineering 解决的是「怎么让模型在真实世界里可靠干活」。
  • Agent 的下一场竞争,不只是模型能力,而是模型外面的工程外壳。
  • 好 Harness 不只是会加控制,还要知道什么时候删控制。
  • Agent 要从玩具变成基础设施,差的就是这层外壳。

📊 文章信息

AI 初评:89

来源:Datawhale

作者:Datawhale

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3658

标签: Agent Harness, ETCLOVG, Agent 工程, 可观测性, 治理

阅读完整文章

查看原文 → 發佈: 2026-05-27 23:58:00 收錄: 2026-05-28 02:00:26

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。