← 回總覽

PawBench:给通用智能体一把可度量的尺

📅 2026-06-05 17:55 通义实验室 人工智能 2 分鐘 1648 字 評分: 88
AI Agent LLM 模型评测 AI 工作流 开源项目
📌 一句话摘要 通义实验室发布 PawBench 评测基准,将底座模型与运行框架(Harness)纳入同一评测体系,通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响,并给出四条 Harness 设计原则。 📝 详细摘要 本文介绍通义实验室推出的全新评测基准 PawBench v1.0。不同于传统仅评测模型能力的榜单,PawBench 将底座模型与运行框架(Harness)作为联合评测对象,构建了 9 个模型 × 3 个 Harness × 150 道真实任务的 4,050 个测试单元矩阵。文章详细阐述了评测设计:任务按应用场景、原子能力、复杂度、输入模态、运

📌 一句话摘要

通义实验室发布 PawBench 评测基准,将底座模型与运行框架(Harness)纳入同一评测体系,通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响,并给出四条 Harness 设计原则。

📝 详细摘要

本文介绍通义实验室推出的全新评测基准 PawBench v1.0。不同于传统仅评测模型能力的榜单,PawBench 将底座模型与运行框架(Harness)作为联合评测对象,构建了 9 个模型 × 3 个 Harness × 150 道真实任务的 4,050 个测试单元矩阵。文章详细阐述了评测设计:任务按应用场景、原子能力、复杂度、输入模态、运行环境五维打标,评分采用自动评分器与 LLM-as-judge 混合权重。基于评测结果,文章揭示了三个关键发现:Harness 机制能左右模型表现(同一模型仅换 Harness 分差可达 11.5 分)、Skill 主动发现是当前 Harness 的共性短板、Web 搜索任务高度依赖工具的默认可用性。最后,文章提炼出四条 Harness 设计原则:充分告知、按需装备、主动监控、弹性恢复,并说明了 PawBench 对智能体用户和 Harness 开发者的实用价值。

💡 主要观点

- PawBench 将底座模型与运行框架(Harness)纳入统一评测体系。 通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响,揭示 Harness 差异可导致 11.5 分的分差,堪比一次重大模型版本升级。

Harness 的产物级校验缺失是导致模型「虚假完工」的主因。 当前多数 Harness 依赖模型自我声明,缺少对工作区产物的实质性校验(如文件是否落盘、测试是否通过),导致模型过早宣布完成而严重掉分。
Skill 主动发现是当前 Harness 的共性短板。 除 OpenClaw 外,另外两个 Harness 均不会主动扫描工作区中的 Skills,导致模型漏掉关键指南,只能自行摸索,在 17 道 Skill 任务上表现吃力。
Web 搜索任务评测结果反映的是 Harness 工具的默认可用性。 Hermes 因核心搜索工具需配置外部 API Key 才能启用,在零配置环境下被「锁死」,导致表现偏低;而支持免密搜索的 Harness 则更具优势。

💬 文章金句

- Harness 间存在稳定分差:QwenPaw(76.4)、OpenClaw(75.4)、Hermes(70.4)。最高 6.4 分的极差,堪比一次重大的模型版本升级。

  • 好 Harness 能让模型「以下克上」:在 Hermes 环境下,GLM 5.1 仅得 68.2 分;而在 QwenPaw 环境下,Qwen3.6-35b-a3b 却能拿到 70.4 分。
  • 不要只听模型说了什么,要看它做了什么。
  • 工具不是越多越好,过多的 schema 反而可能压垮小模型。

📊 文章信息

AI 初评:88

来源:通义实验室

作者:通义实验室

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3713

标签: AI Agent, LLM, 模型评测, AI 工作流, 开源项目

阅读完整文章

查看原文 → 發佈: 2026-06-05 17:55:00 收錄: 2026-06-05 22:00:10

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。