Agent-World 提出了一种通用智能体训练框架,通过从互联网自动挖掘真实世界环境并构建可执行工具与任务,结合多环境强化学习与自进化训练闭环,实现智能体与环境的协同进化。
📝 详细摘要
本文介绍了 Agent-World,一个旨在解决当前大模型在多工具、长程交互任务上能力不足问题的通用智能体训练框架。其核心由两个模块构成:一是智能环境-任务探索模块,通过深度研究智能体从互联网自动挖掘环境数据库、生成可执行工具和可验证任务,最终构建了包含 1978 个环境、19822 个工具的庞大生态;二是持续自进化训练模块,通过多环境强化学习训练智能体,并利用诊断-扩展-训练的闭环机制,让智能体在暴露弱点后获得针对性训练,实现持续进化。实验表明,在 23 个涵盖工具使用、推理、搜索、编程等领域的基准测试中,Agent-World-8B/14B 模型一致性地优于现有的环境扩展方法和强开源基础模型,甚至在部分任务上超越了更大参数的闭源模型。研究还揭示了环境规模、自进化轮次与智能体性能之间存在清晰的缩放关系。
💡 主要观点
- Agent-World 通过智能体化流水线从互联网自动挖掘真实世界环境,解决了传统环境合成规模与真实性不足的问题。 该方法以真实 MCP 服务器数据等为锚点,利用深度研究智能体自主搜索、浏览和挖掘网络信息,生成包含真实数据库和可执行工具集的交互环境,并经过多重校验确保质量。
💬 文章金句
- Agent-World 则选择了个有趣的思路:从真实世界的环境主题出发,让深度研究智能体自主去广阔的互联网上挖掘环境。
- Agent-World 的核心在于把整个环境生态视作天然的智能体训练竞技场。
- 训练提升智能体 → 评估暴露弱点 → 诊断指引环境/任务扩展 → 新数据驱动智能体进一步进化。
- 更真实的可执行环境与可验证奖励,比参数更能对齐复杂的智能体交互模式。
- 真实性是环境扩展的底座,进化是环境训练的动力,环境/任务可扩展性通往泛化性。
📊 文章信息
AI 初评:87
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4995
标签: Agent-World, 智能体训练, 环境合成, 强化学习, 自进化