通义实验室发布 PawBench 评测基准,将底座模型与运行框架(Harness)纳入同一评测体系,通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响,并给出四条 Harness 设计原则。
📝 详细摘要
本文介绍通义实验室推出的全新评测基准 PawBench v1.0。不同于传统仅评测模型能力的榜单,PawBench 将底座模型与运行框架(Harness)作为联合评测对象,构建了 9 个模型 × 3 个 Harness × 150 道真实任务的 4,050 个测试单元矩阵。文章详细阐述了评测设计:任务按应用场景、原子能力、复杂度、输入模态、运行环境五维打标,评分采用自动评分器与 LLM-as-judge 混合权重。基于评测结果,文章揭示了三个关键发现:Harness 机制能左右模型表现(同一模型仅换 Harness 分差可达 11.5 分)、Skill 主动发现是当前 Harness 的共性短板、Web 搜索任务高度依赖工具的默认可用性。最后,文章提炼出四条 Harness 设计原则:充分告知、按需装备、主动监控、弹性恢复,并说明了 PawBench 对智能体用户和 Harness 开发者的实用价值。
💡 主要观点
- PawBench 将底座模型与运行框架(Harness)纳入统一评测体系。 通过 9×3×150 交叉矩阵量化 Harness 对智能体最终表现的决定性影响,揭示 Harness 差异可导致 11.5 分的分差,堪比一次重大模型版本升级。
💬 文章金句
- Harness 间存在稳定分差:QwenPaw(76.4)、OpenClaw(75.4)、Hermes(70.4)。最高 6.4 分的极差,堪比一次重大的模型版本升级。
- 好 Harness 能让模型「以下克上」:在 Hermes 环境下,GLM 5.1 仅得 68.2 分;而在 QwenPaw 环境下,Qwen3.6-35b-a3b 却能拿到 70.4 分。
- 不要只听模型说了什么,要看它做了什么。
- 工具不是越多越好,过多的 schema 反而可能压垮小模型。
📊 文章信息
AI 初评:88
来源:通义实验室
作者:通义实验室
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3713
标签: AI Agent, LLM, 模型评测, AI 工作流, 开源项目