让 Skill 自己训练自己：8 阶段 Loop、3 层评测、5 维 AND 门控，从此实现自进化

📌 一句话摘要

本文提出并实现了一个名为 skill-evolver 的自进化框架，通过融合 Karpathy autoresearch 的外循环、Anthropic skill-creator 的评测引擎和 Stanford Meta-Harness 的 trace 诊断思想，让 AI Skill 能够像训练模型一样自主迭代、评测、回滚和选优，并以 19 轮零回滚的自我进化和真实业务场景验证了其可行性。

📝 详细摘要

文章从作者对 AI Skill 开发中遇到的稳定性、边界和规则冲突等痛点出发，系统性地提出了一个让 Skill 自我进化的训练框架——skill-evolver。该框架借鉴了深度学习训练范式的类比，将 Skill 视为可训练的对象，并设计了 8 阶段迭代循环、三层评测流水线（L1 快速门卫、L2 Dev Eval、L3 Strict Eval）、5 维 AND 门控机制以及基于原始执行轨迹的 Trace 诊断方法。作者通过让 skill-evolver 自我进化 19 轮（全部通过门控，零回滚）和一个真实的客服问答 Skill 优化案例（召回率从 86% 提升至 98.67%），验证了该框架的有效性。文章最后讨论了 LLM 评测噪声、GT 质量天花板和成本等现实挑战，并强调了「每一步都验证」的工程原则以及 AI 在探索人类认知边界之外的互补价值。

💡 主要观点

- Skill 不应是手工打磨的工艺品，而应是一个可被训练、回滚和选优的对象。 作者提出借鉴深度学习训练范式，将 Skill 开发从手动调试转变为基于数据驱动的迭代优化，核心是定义好 GT 数据和评估指标，让循环自动逼近目标。

skill-evolver 框架融合了三种已被验证的思想：外循环骨架、评测引擎和 trace 诊断。 框架整合了 Karpathy autoresearch 的迭代循环、Anthropic skill-creator 的评测能力以及 Stanford Meta-Harness 的原始 trace 驱动诊断，形成了一条完整的闭环。

5 维 AND 门控和分层 mutation 是保证迭代质量的关键工程约束。 通过 5 个维度（如质量、成本、安全等）的 AND 逻辑门控，杜绝了单一维度高分掩盖其他维度问题的可能；分层 mutation 则控制改动粒度，从低成本修改逐步升级，避免盲目大改。

Meta-evolution 的核心价值在于探索人类开发者无法触及的边界。 19 轮自进化暴露了 14 个作者从未想到的测试用例，这些用例来自工具在实际运行中发现的真实问题，而非人工预设，体现了 AI 在探索认知盲区方面的独特价值。

💬 文章金句

- 写一个能跑的 skill 不难，你随手糊一个 SKILL.md，模型就能照着做事了。但你要让它稳定干活，那就是另一回事了。

与其写更长的 prompt 来「说服」它守规矩，不如把规矩写进代码——门控函数不通过就 git revert HEAD，没有商量余地。
Meta-evolution 最有价值的不是自动化节省时间，是它在替一个你还没见过的用户，跑一遍你自己永远跑不到的路径。
skill 不该是你手工打磨的工艺品，它应该是一个可以被训练、被回滚、被选优的对象。
人在 edge 上 optionally 贡献。

📊 文章信息

AI 初评：91

来源：腾讯云开发者

作者：腾讯云开发者

分类：人工智能

语言：中文

阅读时间：33 分钟

字数：8073

标签： Skill 自进化, AI Agent, LLM 评测, AutoResearch, Meta-Harness

阅读完整文章

让 Skill 自己训练自己：8 阶段 Loop、3 层评测、5 维 AND 门控，从此实现自进化

🤖 問 AI