openJiuwen 社区开源了评测驱动的 Auto Harness 框架,通过双层架构(Meta Harness 改基座、Expert Harness 加扩展)实现 Agent 外部执行系统的自动化优化,补上了 Agent「后训练」的关键拼图。
📝 详细摘要
本文介绍了 openJiuwen 社区开源的 Auto Harness 框架,旨在解决 Agent 落地中 Harness(模型外部的执行系统)依赖人工调试的工程瓶颈。文章首先指出模型后训练(RLHF/DPO/GRPO)已成熟,但 Harness 的调优仍靠手工,且难以跨场景复用。Auto Harness 的核心是评测驱动的闭环优化:跑评测 → 诊断问题 → 规划修改 → 实施修改 → 再验证。框架采用双层架构:Meta Harness 优化通用基座(如自动调研 Claude Code 的上下文压缩实现并提 PR),Expert Harness 按需生成领域扩展包(如办公能力),支持热加载。文章通过两个详细 Demo 展示了从自动竞品分析到自动 PR 提交流程,以及 Agent 自我诊断并安装新技能的全过程。最后,文章展望了 Swarm Post-Training,即多 Agent 协同优化,将 Agent 后训练从模型层扩展到单兵和团队层。
💡 主要观点
- Agent 落地的工程瓶颈在于 Harness 的调优仍依赖人工,且难以跨场景复用。 模型后训练已有成熟方法论,但 Harness(工具调用、上下文管理、任务编排等)的调试仍靠工程师经验,换个场景就得推倒重来,累积成工程瓶颈。
💬 文章金句
- Agent = Model + Harness
- 模型这边,从 RLHF 到 DPO 到 GRPO,后训练已经卷出了完整的方法论。Harness 这边呢?至今还在靠人手工调。
- 过去,调 Harness 更像一门手艺,依赖工程师经验,也依赖大量试错。Auto Harness 试图把这件事变成一套可评测、可迭代、可回滚的工程流程。
- Meta Harness 和 Expert Harness 的双层优化架构——既克制又实用。
📊 文章信息
AI 初评:85
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3229
标签: AI Agent, Auto Harness, Agent 工程, 后训练, 开源项目