WorkOS 工程师 Nick Nisi 分享通过删除 95% 的 Agent Skills、使用状态机强制执行和证据验证机制,解决 AI Agent 在真实工程交付中的信任与可靠性问题。
📝 详细摘要
本期节目来自 WorkOS DX 工程师 Nick Nisi 的技术分享,核心探讨了 AI Agent 在真实工程环境中的可靠交付方法论。Nick 长期维护二十多个跨八种语言的 SDK 仓库,已八个月未亲手写代码,转而通过 Agent 完成实现、审查与交付。他分享了两个实践:内部 Case 项目——一个由 TypeScript 状态机驱动的 Agent Harness,包含 implementer、verifier、reviewer、closer 和 retro agent 五个角色,核心不在于 Agent 本身,而在于它们之间的 Gate——每个步骤都强制要求证据验证;外部 WorkOS CLI 则帮助用户快速安装 AuthKit。Nick 发现向 Agent 灌入一万多行文档生成的 Skills 反而使性能下降,通过 Evals 测量后删除 95%,仅保留 553 行常见坑,运行时间从 68 分钟降至 6 分钟,正确率反而从 77% 提升至 97%。他总结了三条核心原则:用机制强制执行而非仅给指令、引导模型而非规定每一步、通过测量而非假设验证效果。最终强调要用证据替代信任,像修 Harness 一样修失败,让系统从每次错误中学习。
💡 主要观点
- Agent 交付可靠性的核心在于 Gate 而非 Agent Case 项目最重要的不是五个 Agent 角色,而是它们之间的状态机强制执行:实现后必须验证,审查发现问题退回,Closer 必须等待系统确认,用机制而非信任保证流程正确。
💬 文章金句
- 这里最重要的词就是'证明'。因为这些 Agent 老是骗我。
- 我让他按我想要的方式做事比撒谎更容易。
- 所以我删掉了百分之九十五的内容之后,性能反而上去了。
- 我之所以知道这一点,真的只是因为我做了测量。
- 如果它犯了错,不要去修它犯下的那些具体错误。要去修 Harness,让 Harness 能自己修那些错误。
📊 文章信息
AI 初评:88
来源:跨国串门儿计划
作者:跨国串门儿计划
分类:人工智能
语言:中文
阅读时间:30 分钟
字数:7340
标签: AI Agent, Agent架构, Evals, Harness Engineering, 工程实践