关于 Agent Harness，我整理了一个最小版！

📌 一句话摘要

本文提出一个最小化 Agent Harness 的骨架设计，包含 Task、Environment、Tools、Trace、Grader 五个核心模块，帮助开发者将 Agent 的执行过程变为可复现、可记录、可评分的实验。

📝 详细摘要

文章从 Agent 评测的实际痛点出发，指出仅凭最终回答无法判断 Agent 是否真正完成了任务，需要一套结构化的评测框架来记录执行过程。作者将最小 Agent Harness 拆解为五个模块：Task（任务输入）、Environment（可操作环境）、Tools（工具接口）、Trace（执行记录）、Grader（评分器）。通过一个具体的 eval case 示例（判断项目是否支持插件系统），展示了如何定义任务、固定环境、限制工具范围、设置评分规则，并记录完整的执行轨迹。文章还参考了 Anthropic Agent Evals、SWE-agent、Terminal-Bench、SWE-bench 等公开资料，强调 Harness 的价值在于让 Agent 的运行过程变得可分析、可定位问题。最后建议从骨架开始搭建，不追求完整平台，先解决核心问题。

💡 主要观点

- Agent 评测不能只看最终答案，需要记录完整的执行过程。 仅凭最终回答无法判断 Agent 是否真的读取了文件、调用了正确的工具、是否基于证据回答。Harness 通过记录 Trace 来定位问题出在任务理解、工具选择还是结果使用。

最小 Agent Harness 包含五个核心模块：Task、Environment、Tools、Trace、Grader。 Task 定义任务目标，Environment 提供固定操作环境，Tools 限定可用工具，Trace 记录每一步执行细节，Grader 基于规则或测试脚本判断结果。这五个模块构成最小可用框架。

公开资料中 Anthropic Agent Evals、SWE-agent、Terminal-Bench、SWE-bench 是重要参考。 Anthropic 区分了 eval harness 和 agent harness；SWE-agent 强调 Agent-Computer Interface 设计对表现的影响；Terminal-Bench 提供任务结构参考；SWE-bench 展示了 coding agent 的典型评测流程。

💬 文章金句

- 评测 Agent 不能只看最终答案，还要看它用了什么工具、拿到了什么结果、有没有按任务要求完成。

一个 mini Agent harness 不需要一开始做成完整平台。第一版只要能串起任务、环境、工具、执行记录和评分器，就已经能帮我们观察 Agent 到底哪里出问题。
有了这套结构，我们就不只是'试一下 Agent 好不好用'，而是能分析问题出在任务理解、工具选择、参数填写、结果读取、步骤冗余，还是评分规则本身不清楚。

📊 文章信息

AI 初评：86

来源：Datawhale

作者：Datawhale

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2018

标签： Agent Harness, Agent 评测, AI Agent, 评测框架, 工具调用

阅读完整文章

关于 Agent Harness，我整理了一个最小版！

🤖 問 AI