本文提出并实现了一个名为 skill-evolver 的自进化框架,通过融合 Karpathy autoresearch 的外循环、Anthropic skill-creator 的评测引擎和 Stanford Meta-Harness 的 trace 诊断思想,让 AI Skill 能够像训练模型一样自主迭代、评测、回滚和选优,并以 19 轮零回滚的自我进化和真实业务场景验证了其可行性。
📝 详细摘要
文章从作者对 AI Skill 开发中遇到的稳定性、边界和规则冲突等痛点出发,系统性地提出了一个让 Skill 自我进化的训练框架——skill-evolver。该框架借鉴了深度学习训练范式的类比,将 Skill 视为可训练的对象,并设计了 8 阶段迭代循环、三层评测流水线(L1 快速门卫、L2 Dev Eval、L3 Strict Eval)、5 维 AND 门控机制以及基于原始执行轨迹的 Trace 诊断方法。作者通过让 skill-evolver 自我进化 19 轮(全部通过门控,零回滚)和一个真实的客服问答 Skill 优化案例(召回率从 86% 提升至 98.67%),验证了该框架的有效性。文章最后讨论了 LLM 评测噪声、GT 质量天花板和成本等现实挑战,并强调了「每一步都验证」的工程原则以及 AI 在探索人类认知边界之外的互补价值。
💡 主要观点
- Skill 不应是手工打磨的工艺品,而应是一个可被训练、回滚和选优的对象。 作者提出借鉴深度学习训练范式,将 Skill 开发从手动调试转变为基于数据驱动的迭代优化,核心是定义好 GT 数据和评估指标,让循环自动逼近目标。
💬 文章金句
- 写一个能跑的 skill 不难,你随手糊一个 SKILL.md,模型就能照着做事了。但你要让它稳定干活,那就是另一回事了。
- 与其写更长的 prompt 来「说服」它守规矩,不如把规矩写进代码——门控函数不通过就 git revert HEAD,没有商量余地。
- Meta-evolution 最有价值的不是自动化节省时间,是它在替一个你还没见过的用户,跑一遍你自己永远跑不到的路径。
- skill 不该是你手工打磨的工艺品,它应该是一个可以被训练、被回滚、被选优的对象。
- 人在 edge 上 optionally 贡献。
📊 文章信息
AI 初评:91
来源:腾讯云开发者
作者:腾讯云开发者
分类:人工智能
语言:中文
阅读时间:33 分钟
字数:8073
标签: Skill 自进化, AI Agent, LLM 评测, AutoResearch, Meta-Harness