← 回總覽

谷歌 SkillOS:Skill 治理驱动的自进化 Agents

📅 2026-05-11 10:45 PaperAgent 人工智能 2 分鐘 1740 字 評分: 86
SkillOS 自进化 Agent 技能策展 强化学习 GRPO
📌 一句话摘要 UIUC、谷歌和 MIT 联合提出 SkillOS,通过强化学习训练技能策展器,让 LLM Agent 从交互轨迹中自主提炼、更新和删除技能,实现持续进化。 📝 详细摘要 本文详细介绍了 UIUC、谷歌和 MIT 联合提出的 SkillOS 系统,旨在解决当前 LLM Agent 作为一次性问题解决者的核心缺陷。SkillOS 的核心洞察是将技能策展视为一个长期决策问题,并采用双模块架构:冻结的 Agent 执行器(π_L)和可训练的 Skill 策展器(π_S)。策展器通过 GRPO 算法训练,能够对技能库执行 Insert、Update、Delete 操作。训练策略采用

📌 一句话摘要

UIUC、谷歌和 MIT 联合提出 SkillOS,通过强化学习训练技能策展器,让 LLM Agent 从交互轨迹中自主提炼、更新和删除技能,实现持续进化。

📝 详细摘要

本文详细介绍了 UIUC、谷歌和 MIT 联合提出的 SkillOS 系统,旨在解决当前 LLM Agent 作为一次性问题解决者的核心缺陷。SkillOS 的核心洞察是将技能策展视为一个长期决策问题,并采用双模块架构:冻结的 Agent 执行器(π_L)和可训练的 Skill 策展器(π_S)。策展器通过 GRPO 算法训练,能够对技能库执行 Insert、Update、Delete 操作。训练策略采用分组任务流,将策展决策与长期下游效用挂钩,并设计了包含任务成功率、函数调用合法性、内容质量和压缩率的复合奖励函数。实验结果表明,SkillOS 在 ALFWorld、WebShop 及推理任务上均显著提升了性能,且训练后的策展器可跨执行器泛化。深入分析显示,策展器学会了从盲目插入转向精炼整合,技能库也从任务特定技能演化为更具通用性的元策略技能。

💡 主要观点

- SkillOS 将技能策展定义为长期决策问题,用强化学习训练策展器。 传统方法依赖人工或启发式规则进行技能管理,而 SkillOS 通过 GRPO 算法,让策展器在长期任务流中学习何时插入、更新或删除技能,以最大化下游任务性能。

双模块架构实现执行器与策展器解耦,策展器可独立迭代。 Agent 执行器负责根据技能执行任务,被冻结;Skill 策展器则根据执行轨迹评判技能质量并管理技能库。这种设计允许策展器独立训练和升级,无需重新训练执行器。
分组任务流和复合奖励设计是训练成功的关键。 将相关任务分组训练,使早期策展决策的长期影响能被后续任务验证。复合奖励结合了任务成功率、操作合法性、技能质量和库压缩率,提供了密集且有效的学习信号。
训练后的策展器展现出跨执行器和跨任务的泛化能力。 在 Qwen3-8B 上训练的策展器可直接迁移到更强的 Qwen3-32B 和 Gemini-2.5-Pro 上,且推理任务上训练的策展器在 Agent 任务上表现更佳,表明其学到了可组合的控制知识。
策展行为从盲目扩张演化为精炼整合,技能库质量持续提升。 训练初期策展器以 Insert 为主,后期 Update 比例上升,技能内容从泛泛的指导演变为包含失败处理、条件分支等执行导向的元策略,技能调用也更精准高效。

💬 文章金句

- 当前 LLM-based Agent 在流式任务场景中普遍存在一个致命缺陷——它们是一次性问题解决者(one-off problem solvers)。

  • 技能策展本身就是一个长期决策问题——今天插入的一条技能,其价值可能要在几十个相关任务之后才能显现。
  • 策展器可以独立迭代,执行器可以任意替换,无需端到端重训。
  • 这一定 formulation 将策展决策与长期下游效用挂钩,为 Update/Delete 等操作提供了密集的学习信号。
  • 这证明 SkillOS 学到的不是任务专属捷径,而是可组合的控制知识。

📊 文章信息

AI 初评:86

来源:PaperAgent

作者:PaperAgent

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2873

标签: SkillOS, 自进化 Agent, 技能策展, 强化学习, GRPO

阅读完整文章

查看原文 → 發佈: 2026-05-11 10:45:00 收錄: 2026-05-11 22:00:12

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。