← 回總覽

一周 3.3k star,微软开启 Skills 自我进化!像训练神经网络一样训练技能

📅 2026-05-31 13:08 机器之心 人工智能 2 分鐘 1415 字 評分: 90
SkillOpt 微软 AI Agent 技能优化 文本空间优化
📌 一句话摘要 微软开源 SkillOpt,一个将 Agent 技能文档视为可训练参数的文本空间优化框架,通过系统化的训练循环让技能文档自我进化,在 52 个评测组合中全面领先。 📝 详细摘要 本文详细介绍了微软开源的 SkillOpt 框架,其核心思想是将 Agent 的行为指导文档(如 CLAUDE.md、system prompt)视为可训练的「外部权重」,并借鉴深度学习训练循环(前向传播、反向传播、参数更新)来系统化地优化这些自然语言文档。框架包含 Rollout(执行任务)、Reflect(分析失败/成功案例)、Edit(结构化编辑)和 Gate(验证门控)四个核心步骤,并引入了

📌 一句话摘要

微软开源 SkillOpt,一个将 Agent 技能文档视为可训练参数的文本空间优化框架,通过系统化的训练循环让技能文档自我进化,在 52 个评测组合中全面领先。

📝 详细摘要

本文详细介绍了微软开源的 SkillOpt 框架,其核心思想是将 Agent 的行为指导文档(如 CLAUDE.md、system prompt)视为可训练的「外部权重」,并借鉴深度学习训练循环(前向传播、反向传播、参数更新)来系统化地优化这些自然语言文档。框架包含 Rollout(执行任务)、Reflect(分析失败/成功案例)、Edit(结构化编辑)和 Gate(验证门控)四个核心步骤,并引入了文本学习率、被拒绝编辑缓冲区、慢更新与元技能等机制来防止灾难性遗忘、利用负反馈和实现长期记忆。在 7 个目标模型、6 个基准测试、3 种执行环境的 52 个评测组合中,SkillOpt 均达到最优或并列最优,且训练出的技能文档展现出强大的跨模型和跨环境迁移能力。文章认为,SkillOpt 标志着智能体技能优化从手工试错走向了系统化训练,进一步将人类的认知负担转移给机器。

💡 主要观点

- SkillOpt 将 Agent 技能文档视为可训练的「外部权重」,借鉴深度学习训练循环进行系统化优化。 框架包含 Rollout(前向传播)、Reflect(反向传播,分析失败/成功案例)、Edit(参数更新,结构化编辑文档)和 Gate(验证门控)四个步骤,将手工试错转变为自动化训练过程。

引入文本学习率和被拒绝编辑缓冲区,防止灾难性遗忘并利用负反馈。 文本学习率限制每步编辑操作数量,确保训练稳定性;被拒绝的编辑提案进入缓冲区,避免优化器重复提出无效修改,相当于提供了负梯度信息。
在 52 个评测组合中全面领先,且训练出的技能文档具有强迁移能力。 在 7 个模型、6 个基准、3 种执行环境下均达最优或并列最优。技能文档可跨模型、跨环境迁移,甚至可用小模型自我优化,部署时仅需一个 best_skill.md 文件,推理开销为零。

💬 文章金句

- Agent 的技能文档就是它的「外部权重」,既然内部权重可以用梯度下降来优化,外部权重也应该有一套系统化的训练方法。

  • 一份好的操作手册,对新手的价值远大于对专家的价值,这个直觉在 AI Agent 上同样成立。
  • SkillOpt 告诉我们,智能体的一切都是可以自我学习的。

📊 文章信息

AI 初评:90

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3551

标签: SkillOpt, 微软, AI Agent, 技能优化, 文本空间优化

阅读完整文章

查看原文 → 發佈: 2026-05-31 13:08:00 收錄: 2026-05-31 22:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。