谷歌 SkillOS：Skill 治理驱动的自进化 Agents

📌 一句话摘要

UIUC、谷歌和 MIT 联合提出 SkillOS，通过强化学习训练技能策展器，让 LLM Agent 从交互轨迹中自主提炼、更新和删除技能，实现持续进化。

📝 详细摘要

本文详细介绍了 UIUC、谷歌和 MIT 联合提出的 SkillOS 系统，旨在解决当前 LLM Agent 作为一次性问题解决者的核心缺陷。SkillOS 的核心洞察是将技能策展视为一个长期决策问题，并采用双模块架构：冻结的 Agent 执行器（π_L）和可训练的 Skill 策展器（π_S）。策展器通过 GRPO 算法训练，能够对技能库执行 Insert、Update、Delete 操作。训练策略采用分组任务流，将策展决策与长期下游效用挂钩，并设计了包含任务成功率、函数调用合法性、内容质量和压缩率的复合奖励函数。实验结果表明，SkillOS 在 ALFWorld、WebShop 及推理任务上均显著提升了性能，且训练后的策展器可跨执行器泛化。深入分析显示，策展器学会了从盲目插入转向精炼整合，技能库也从任务特定技能演化为更具通用性的元策略技能。

💡 主要观点

- SkillOS 将技能策展定义为长期决策问题，用强化学习训练策展器。 传统方法依赖人工或启发式规则进行技能管理，而 SkillOS 通过 GRPO 算法，让策展器在长期任务流中学习何时插入、更新或删除技能，以最大化下游任务性能。

双模块架构实现执行器与策展器解耦，策展器可独立迭代。 Agent 执行器负责根据技能执行任务，被冻结；Skill 策展器则根据执行轨迹评判技能质量并管理技能库。这种设计允许策展器独立训练和升级，无需重新训练执行器。

分组任务流和复合奖励设计是训练成功的关键。 将相关任务分组训练，使早期策展决策的长期影响能被后续任务验证。复合奖励结合了任务成功率、操作合法性、技能质量和库压缩率，提供了密集且有效的学习信号。

训练后的策展器展现出跨执行器和跨任务的泛化能力。 在 Qwen3-8B 上训练的策展器可直接迁移到更强的 Qwen3-32B 和 Gemini-2.5-Pro 上，且推理任务上训练的策展器在 Agent 任务上表现更佳，表明其学到了可组合的控制知识。

策展行为从盲目扩张演化为精炼整合，技能库质量持续提升。 训练初期策展器以 Insert 为主，后期 Update 比例上升，技能内容从泛泛的指导演变为包含失败处理、条件分支等执行导向的元策略，技能调用也更精准高效。

💬 文章金句

- 当前 LLM-based Agent 在流式任务场景中普遍存在一个致命缺陷——它们是一次性问题解决者（one-off problem solvers）。

技能策展本身就是一个长期决策问题——今天插入的一条技能，其价值可能要在几十个相关任务之后才能显现。
策展器可以独立迭代，执行器可以任意替换，无需端到端重训。
这一定 formulation 将策展决策与长期下游效用挂钩，为 Update/Delete 等操作提供了密集的学习信号。
这证明 SkillOS 学到的不是任务专属捷径，而是可组合的控制知识。

📊 文章信息

AI 初评：86

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2873

标签： SkillOS, 自进化 Agent, 技能策展, 强化学习, GRPO

阅读完整文章

谷歌 SkillOS：Skill 治理驱动的自进化 Agents

🤖 問 AI