Agent 团队开始自我进化，MetaAgent-X 把协作训进基座模型

📌 一句话摘要

MetaAgent-X 提出一种端到端可训练的多智能体框架，通过强化学习让基座模型同时学会设计多智能体系统和在其中执行任务，实现设计与执行的共同进化。

📝 详细摘要

本文介绍了 MetaAgent-X，一种将多智能体系统的设计与执行能力同时训练进基座模型的新范式。传统自动多智能体方法多在模型外部编排流程，执行模型本身不随任务反馈进化，导致系统受限于固定执行器的能力天花板。MetaAgent-X 将系统拆分为 Designer 和 Executor 两个角色：Designer 生成描述多智能体系统结构的 Python 脚本，Executor 运行该系统完成任务。通过 Executor-Designer Hierarchical Rollout 机制（每个问题采样多个设计，每个设计多次执行）和 Stagewise Co-evolution 分阶段交替训练策略，模型能够从真实任务反馈中同时优化设计和执行能力。实验基于 Qwen3 4B 和 8B 模型，在 6 个数学和代码基准上，MetaAgent-X RL 相比单智能体基线平均提升 11-13 个百分点，并超越已有自动多智能体方法。消融实验验证了层级 rollout、阶段式训练和共享策略的有效性。论文认为，自动多智能体系统不应只是外部编排，而应成为基座模型的原生能力。

💡 主要观点

- MetaAgent-X 将多智能体系统的设计与执行能力同时训练进基座模型。 传统方法多在模型外部编排流程，执行模型冻结；MetaAgent-X 通过端到端强化学习，让模型同时学会设计协作结构和在其中执行任务，突破固定执行器的能力天花板。

Executor-Designer Hierarchical Rollout 机制解决了信用分配难题。 每个问题采样多个系统设计，每个设计多次执行，通过平均奖励评估设计质量，避免单次执行的噪声干扰，使训练信号更可靠。

Stagewise Co-evolution 分阶段交替训练保证了稳定性。 Executor 阶段先逼近当前设计的能力上限，Designer 阶段再抬高上限，交替进行避免同时更新导致的目标干扰和模型崩溃。

共享策略优于分离策略，设计和执行能力相互促进。 共享参数让执行经验影响设计能力，设计信号成为执行行为的归纳偏置，在 AIME24 和 AIME25 上分别提升 6.7 和 6.6 个百分点。

RL 训练后模型能根据任务难度自适应选择协作结构。 在较难数学题上倾向 reflection 结构（解题+检查），在直接代码任务上倾向 single 结构，在复杂任务上保留 ensemble，说明模型学会了任务相关的结构路由。

💬 文章金句

- 能不能让同一个基座模型既学会「如何设计一个多智能体系统」，也学会「如何在这个系统中执行任务」，并且让这两种能力通过强化学习一起提升？

自动多智能体系统学到的更多是外部编排，而不是基座模型原生的多智能体能力。
与其只在模型外部搜索更复杂的流程，不如让模型本身学会设计、执行和进化多智能体系统。
MetaAgent-X 的核心意义不只是「让系统多几个 agent」。它真正尝试训练的是基座模型原生的多智能体能力。
共享参数可以让执行经验反过来影响设计能力，也让设计信号成为执行行为的归纳偏置。

📊 文章信息

AI 初评：86

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4537

标签：多智能体系统, MetaAgent-X, 强化学习, 基座模型, 自动多智能体

阅读完整文章

Agent 团队开始自我进化，MetaAgent-X 把协作训进基座模型

🤖 問 AI