Agent-World：扩展真实世界环境，让智能体与环境协同进化！

📌 一句话摘要

Agent-World 提出了一种通用智能体训练框架，通过从互联网自动挖掘真实世界环境并构建可执行工具与任务，结合多环境强化学习与自进化训练闭环，实现智能体与环境的协同进化。

📝 详细摘要

本文介绍了 Agent-World，一个旨在解决当前大模型在多工具、长程交互任务上能力不足问题的通用智能体训练框架。其核心由两个模块构成：一是智能环境-任务探索模块，通过深度研究智能体从互联网自动挖掘环境数据库、生成可执行工具和可验证任务，最终构建了包含 1978 个环境、19822 个工具的庞大生态；二是持续自进化训练模块，通过多环境强化学习训练智能体，并利用诊断-扩展-训练的闭环机制，让智能体在暴露弱点后获得针对性训练，实现持续进化。实验表明，在 23 个涵盖工具使用、推理、搜索、编程等领域的基准测试中，Agent-World-8B/14B 模型一致性地优于现有的环境扩展方法和强开源基础模型，甚至在部分任务上超越了更大参数的闭源模型。研究还揭示了环境规模、自进化轮次与智能体性能之间存在清晰的缩放关系。

💡 主要观点

- Agent-World 通过智能体化流水线从互联网自动挖掘真实世界环境，解决了传统环境合成规模与真实性不足的问题。 该方法以真实 MCP 服务器数据等为锚点，利用深度研究智能体自主搜索、浏览和挖掘网络信息，生成包含真实数据库和可执行工具集的交互环境，并经过多重校验确保质量。

持续自进化训练框架通过诊断-扩展-训练的闭环，让智能体与环境协同进化。 每轮训练后，系统会评估智能体在新任务上的表现，诊断其能力短板，并针对性地生成更复杂的训练任务和环境，驱动下一轮强化学习，形成持续提升的飞轮。

环境规模、自进化轮次与智能体性能之间存在明确的缩放关系。 实验表明，随着训练环境数量的增加和自进化轮次的深入，智能体在多个基准上的性能持续提升，验证了扩展环境生态是提升通用智能体能力的有效路径。

💬 文章金句

- Agent-World 则选择了个有趣的思路：从真实世界的环境主题出发，让深度研究智能体自主去广阔的互联网上挖掘环境。

Agent-World 的核心在于把整个环境生态视作天然的智能体训练竞技场。
训练提升智能体 → 评估暴露弱点 → 诊断指引环境/任务扩展 → 新数据驱动智能体进一步进化。
更真实的可执行环境与可验证奖励，比参数更能对齐复杂的智能体交互模式。
真实性是环境扩展的底座，进化是环境训练的动力，环境/任务可扩展性通往泛化性。

📊 文章信息

AI 初评：87

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4995

标签： Agent-World, 智能体训练, 环境合成, 强化学习, 自进化

阅读完整文章

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

🤖 問 AI