一周 3.3k star，微软开启 Skills 自我进化！像训练神经网络一样训练技能

📌 一句话摘要

微软开源 SkillOpt，一个将 Agent 技能文档视为可训练参数的文本空间优化框架，通过系统化的训练循环让技能文档自我进化，在 52 个评测组合中全面领先。

📝 详细摘要

本文详细介绍了微软开源的 SkillOpt 框架，其核心思想是将 Agent 的行为指导文档（如 CLAUDE.md、system prompt）视为可训练的「外部权重」，并借鉴深度学习训练循环（前向传播、反向传播、参数更新）来系统化地优化这些自然语言文档。框架包含 Rollout（执行任务）、Reflect（分析失败/成功案例）、Edit（结构化编辑）和 Gate（验证门控）四个核心步骤，并引入了文本学习率、被拒绝编辑缓冲区、慢更新与元技能等机制来防止灾难性遗忘、利用负反馈和实现长期记忆。在 7 个目标模型、6 个基准测试、3 种执行环境的 52 个评测组合中，SkillOpt 均达到最优或并列最优，且训练出的技能文档展现出强大的跨模型和跨环境迁移能力。文章认为，SkillOpt 标志着智能体技能优化从手工试错走向了系统化训练，进一步将人类的认知负担转移给机器。

💡 主要观点

- SkillOpt 将 Agent 技能文档视为可训练的「外部权重」，借鉴深度学习训练循环进行系统化优化。 框架包含 Rollout（前向传播）、Reflect（反向传播，分析失败/成功案例）、Edit（参数更新，结构化编辑文档）和 Gate（验证门控）四个步骤，将手工试错转变为自动化训练过程。

引入文本学习率和被拒绝编辑缓冲区，防止灾难性遗忘并利用负反馈。 文本学习率限制每步编辑操作数量，确保训练稳定性；被拒绝的编辑提案进入缓冲区，避免优化器重复提出无效修改，相当于提供了负梯度信息。

在 52 个评测组合中全面领先，且训练出的技能文档具有强迁移能力。 在 7 个模型、6 个基准、3 种执行环境下均达最优或并列最优。技能文档可跨模型、跨环境迁移，甚至可用小模型自我优化，部署时仅需一个 best_skill.md 文件，推理开销为零。

💬 文章金句

- Agent 的技能文档就是它的「外部权重」，既然内部权重可以用梯度下降来优化，外部权重也应该有一套系统化的训练方法。

一份好的操作手册，对新手的价值远大于对专家的价值，这个直觉在 AI Agent 上同样成立。
SkillOpt 告诉我们，智能体的一切都是可以自我学习的。

📊 文章信息

AI 初评：90

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3551

标签： SkillOpt, 微软, AI Agent, 技能优化, 文本空间优化

阅读完整文章

一周 3.3k star，微软开启 Skills 自我进化！像训练神经网络一样训练技能

🤖 問 AI