刚刚，一篇最全 Agent Harness 综述来了！

📌 一句话摘要

本文系统综述了 Agent Harness Engineering 的概念、七层框架（ETCLOVG）和工程演进，强调模型外部的工程外壳是 Agent 从演示走向生产的关键。

📝 详细摘要

本文是对一篇由 CMU、Yale、JHU 等机构联合发表的 Agent Harness 综述论文的深度解读。文章指出，当前 Agent 研究的瓶颈已从模型能力转向模型外部的工程系统，即 Agent Harness。作者提出了 ETCLOVG 七层框架，涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和安全治理。文章梳理了从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三次工程迁移，并强调可观测性和治理是生产级 Agent 的独立核心层。文章还讨论了成本-质量-速度三角、能力与控制矛盾等跨层问题，并指出 Agent 平台竞争将围绕整套 Harness 能力展开。最后，文章提醒 Harness 设计应随模型能力演进动态调整，避免过度加脚手架。

💡 主要观点

- Agent 性能瓶颈正从模型能力转向模型外部的工程系统（Harness）。 论文指出，在长任务、真实工具环境中，Agent 失败常因系统管理不善而非模型不够聪明。改进 Harness 可在不换模型的情况下带来数倍性能提升。

Agent 工程经历了从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三次迁移。 Prompt Engineering 解决如何与模型对话，Context Engineering 解决模型该看见什么，Harness Engineering 解决如何让模型在真实世界中可靠行动。

ETCLOVG 七层框架是构建生产级 Agent 的系统化指南。 该框架涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估和安全治理，七层共同构成一个能跑长任务的完整 Agent 系统。

可观测性和治理是生产级 Agent 的独立核心层，而非附属功能。 Agent 执行真实操作时，必须知道它做了什么（可观测性）和被允许做什么（治理），否则无法定位失败原因或确保安全可控。

Agent 评估应从最终成功率转向基于完整执行轨迹的 trace-native 评估。 最终成功率掩盖了模型、提示词、工具、上下文等多变量影响，trace-native 评估通过记录完整执行轨迹来判断结果正确性、路径合理性和评估器可信度。

💬 文章金句

- 同一个模型，换一套执行外壳，表现可以完全不一样。

Prompt Engineering 解决的是「怎么跟模型说话」。Context Engineering 解决的是「模型该看见什么」。Harness Engineering 解决的是「怎么让模型在真实世界里可靠干活」。
Agent 的下一场竞争，不只是模型能力，而是模型外面的工程外壳。
好 Harness 不只是会加控制，还要知道什么时候删控制。
Agent 要从玩具变成基础设施，差的就是这层外壳。

📊 文章信息

AI 初评：89

来源：Datawhale

作者：Datawhale

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3658

标签： Agent Harness, ETCLOVG, Agent 工程, 可观测性, 治理

阅读完整文章

刚刚，一篇最全 Agent Harness 综述来了！

🤖 問 AI