MetaAgent-X 提出一种端到端可训练的多智能体框架,通过强化学习让基座模型同时学会设计多智能体系统和在其中执行任务,实现设计与执行的共同进化。
📝 详细摘要
本文介绍了 MetaAgent-X,一种将多智能体系统的设计与执行能力同时训练进基座模型的新范式。传统自动多智能体方法多在模型外部编排流程,执行模型本身不随任务反馈进化,导致系统受限于固定执行器的能力天花板。MetaAgent-X 将系统拆分为 Designer 和 Executor 两个角色:Designer 生成描述多智能体系统结构的 Python 脚本,Executor 运行该系统完成任务。通过 Executor-Designer Hierarchical Rollout 机制(每个问题采样多个设计,每个设计多次执行)和 Stagewise Co-evolution 分阶段交替训练策略,模型能够从真实任务反馈中同时优化设计和执行能力。实验基于 Qwen3 4B 和 8B 模型,在 6 个数学和代码基准上,MetaAgent-X RL 相比单智能体基线平均提升 11-13 个百分点,并超越已有自动多智能体方法。消融实验验证了层级 rollout、阶段式训练和共享策略的有效性。论文认为,自动多智能体系统不应只是外部编排,而应成为基座模型的原生能力。
💡 主要观点
- MetaAgent-X 将多智能体系统的设计与执行能力同时训练进基座模型。 传统方法多在模型外部编排流程,执行模型冻结;MetaAgent-X 通过端到端强化学习,让模型同时学会设计协作结构和在其中执行任务,突破固定执行器的能力天花板。
💬 文章金句
- 能不能让同一个基座模型既学会「如何设计一个多智能体系统」,也学会「如何在这个系统中执行任务」,并且让这两种能力通过强化学习一起提升?
- 自动多智能体系统学到的更多是外部编排,而不是基座模型原生的多智能体能力。
- 与其只在模型外部搜索更复杂的流程,不如让模型本身学会设计、执行和进化多智能体系统。
- MetaAgent-X 的核心意义不只是「让系统多几个 agent」。它真正尝试训练的是基座模型原生的多智能体能力。
- 共享参数可以让执行经验反过来影响设计能力,也让设计信号成为执行行为的归纳偏置。
📊 文章信息
AI 初评:86
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4537
标签: 多智能体系统, MetaAgent-X, 强化学习, 基座模型, 自动多智能体