UIUC、谷歌和 MIT 联合提出 SkillOS,通过强化学习训练技能策展器,让 LLM Agent 从交互轨迹中自主提炼、更新和删除技能,实现持续进化。
📝 详细摘要
本文详细介绍了 UIUC、谷歌和 MIT 联合提出的 SkillOS 系统,旨在解决当前 LLM Agent 作为一次性问题解决者的核心缺陷。SkillOS 的核心洞察是将技能策展视为一个长期决策问题,并采用双模块架构:冻结的 Agent 执行器(π_L)和可训练的 Skill 策展器(π_S)。策展器通过 GRPO 算法训练,能够对技能库执行 Insert、Update、Delete 操作。训练策略采用分组任务流,将策展决策与长期下游效用挂钩,并设计了包含任务成功率、函数调用合法性、内容质量和压缩率的复合奖励函数。实验结果表明,SkillOS 在 ALFWorld、WebShop 及推理任务上均显著提升了性能,且训练后的策展器可跨执行器泛化。深入分析显示,策展器学会了从盲目插入转向精炼整合,技能库也从任务特定技能演化为更具通用性的元策略技能。
💡 主要观点
- SkillOS 将技能策展定义为长期决策问题,用强化学习训练策展器。 传统方法依赖人工或启发式规则进行技能管理,而 SkillOS 通过 GRPO 算法,让策展器在长期任务流中学习何时插入、更新或删除技能,以最大化下游任务性能。
💬 文章金句
- 当前 LLM-based Agent 在流式任务场景中普遍存在一个致命缺陷——它们是一次性问题解决者(one-off problem solvers)。
- 技能策展本身就是一个长期决策问题——今天插入的一条技能,其价值可能要在几十个相关任务之后才能显现。
- 策展器可以独立迭代,执行器可以任意替换,无需端到端重训。
- 这一定 formulation 将策展决策与长期下游效用挂钩,为 Update/Delete 等操作提供了密集的学习信号。
- 这证明 SkillOS 学到的不是任务专属捷径,而是可组合的控制知识。
📊 文章信息
AI 初评:86
来源:PaperAgent
作者:PaperAgent
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2873
标签: SkillOS, 自进化 Agent, 技能策展, 强化学习, GRPO