基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案

📌 一句话摘要

本文提出一种创新评测方案：利用顶级 Agent（Claude Code）作为 Harness 工程的搭建者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。

📝 详细摘要

文章针对业务 Agent 迭代快但传统评测工程搭建慢的核心矛盾，提出了一种「Harness 工程搭建式」评测方案。核心思路是用一个强 Agent（Claude Code）作为评测工程的搭建者和运行者，将评测逻辑从传统的 Python 脚本转变为更灵活、可读、易迭代的 Agent 提示词。文章详细介绍了 Harness 的三层架构（规则层、数据层、执行逻辑层、输出层）、统一的三层指标框架（L1 通用基础、L2 能力类型、L3 专属指标），以及从评测方案设计到结果分析的五步搭建方法。通过实际案例和效率对比（单 Agent 全流程从 1.5 周压缩到 1-2 天），展示了该方案在 Prompt 迭代验证、多 Agent 横向对比等场景下的显著优势，并坦诚讨论了 LLM-as-Judge 偏差、评测集规模等局限。文章源自阿里云开发者团队的一线实践，方法论完整，可操作性强。

💡 主要观点

- 核心创新：将评测逻辑从「代码」升级为「Prompt」。 传统评测依赖编写 Python/Java 脚本，而本文方案将评测标准、执行流程和评分规则编码为一份评测 Agent 的提示词，使其更灵活、可读且易于迭代，实现了「评测即文档」。

Harness 方案由顶级 Agent 搭建，而非人工编写。 利用 Claude Code 强大的代码生成、结构化输出和多轮协作能力，自动完成评测方案设计、数据集构建、评测 Agent 提示词编写和结果分析，将人工从繁琐的脚本编写中解放出来。

沉淀了一套通用的三层指标框架。 框架包含 L1 通用基础指标（格式合规率、字段完整率）、L2 按能力类型选用的指标（分类准确率、召回率、MAE 等）和 L3 Agent 专属指标，新 Agent 接入时只需按需勾选，实现了评测标准的统一和复用。

显著提升评测效率，实现「天级启动，小时级迭代」。 通过实际数据对比，单 Agent 全流程从传统的约 1.5 周压缩到 1-2 天，其中评测方案设计和脚本开发环节加速比达 10 倍，极大降低了 Prompt 迭代的验证成本。

坦诚讨论了方案的局限性与适用场景。 文章明确指出 LLM-as-Judge 存在偏差、评测集规模受限于人工 GT 标注、依赖评测平台稳定性等局限，并给出了人工抽检兜底、小而精评测集等具体建议，体现了工程实践的严谨性。

💬 文章金句

- 用一个强 Agent（Claude Code）搭建评测 Harness 工程，将评测逻辑从「代码」升级为「Prompt」，实现业务 Agent 的系统性快速评测。

评测 Harness 的本质是一套结构化的评估规则 + 执行流程。传统做法把它编码为 Python 脚本，而我们把它编码为 Agent 提示词——更灵活、更可读、更易迭代。
一个人 + Claude Code 完成原来需要测试开发 + 数据标注 + 分析师的工作。

📊 文章信息

AI 初评：88

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5400

标签： AI Agent, LLM, AI 评测, Prompt Engineering, AI 工程化

阅读完整文章

基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案

🤖 問 AI