PawBench：给通用智能体一把可度量的尺

📌 一句话摘要

通义实验室发布 PawBench 评测基准，将底座模型与运行框架（Harness）纳入同一评测体系，通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响，并给出四条 Harness 设计原则。

📝 详细摘要

本文介绍通义实验室推出的全新评测基准 PawBench v1.0。不同于传统仅评测模型能力的榜单，PawBench 将底座模型与运行框架（Harness）作为联合评测对象，构建了 9 个模型 × 3 个 Harness × 150 道真实任务的 4，050 个测试单元矩阵。文章详细阐述了评测设计：任务按应用场景、原子能力、复杂度、输入模态、运行环境五维打标，评分采用自动评分器与 LLM-as-judge 混合权重。基于评测结果，文章揭示了三个关键发现：Harness 机制能左右模型表现（同一模型仅换 Harness 分差可达 11.5 分）、Skill 主动发现是当前 Harness 的共性短板、Web 搜索任务高度依赖工具的默认可用性。最后，文章提炼出四条 Harness 设计原则：充分告知、按需装备、主动监控、弹性恢复，并说明了 PawBench 对智能体用户和 Harness 开发者的实用价值。

💡 主要观点

- PawBench 将底座模型与运行框架（Harness）纳入统一评测体系。 通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响，揭示 Harness 差异可导致 11.5 分的分差，堪比一次重大模型版本升级。

Harness 的产物级校验缺失是导致模型「虚假完工」的主因。 当前多数 Harness 依赖模型自我声明，缺少对工作区产物的实质性校验（如文件是否落盘、测试是否通过），导致模型过早宣布完成而严重掉分。

Skill 主动发现是当前 Harness 的共性短板。 除 OpenClaw 外，另外两个 Harness 均不会主动扫描工作区中的 Skills，导致模型漏掉关键指南，只能自行摸索，在 17 道 Skill 任务上表现吃力。

Web 搜索任务评测结果反映的是 Harness 工具的默认可用性。 Hermes 因核心搜索工具需配置外部 API Key 才能启用，在零配置环境下被「锁死」，导致表现偏低；而支持免密搜索的 Harness 则更具优势。

💬 文章金句

- Harness 间存在稳定分差：QwenPaw（76.4）、OpenClaw（75.4）、Hermes（70.4）。最高 6.4 分的极差，堪比一次重大的模型版本升级。

好 Harness 能让模型「以下克上」：在 Hermes 环境下，GLM 5.1 仅得 68.2 分；而在 QwenPaw 环境下，Qwen3.6-35b-a3b 却能拿到 70.4 分。
不要只听模型说了什么，要看它做了什么。
工具不是越多越好，过多的 schema 反而可能压垮小模型。

📊 文章信息

AI 初评：88

来源：通义实验室

作者：通义实验室

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3713

标签： AI Agent, LLM, 模型评测, AI 工作流, 开源项目

阅读完整文章

PawBench：给通用智能体一把可度量的尺

🤖 問 AI