解锁 Agent Swarm 新潜力，openJiuwen 又一力作：多智能体流网络

📌 一句话摘要

本文介绍华为泊松实验室提出的 MANGO 框架，通过强化学习优化多智能体流网络中的路径选择，并结合文本梯度与节点跳跃机制，实现端到端协作效率与稳定性的提升。

📝 详细摘要

文章详细介绍了由华为泊松实验室与维纳研究所提出的 MANGO（Multi-Agent Network Gradient Optimization）框架，旨在解决多智能体协作中因错误传播导致的系统不稳定问题。MANGO 的核心创新在于将多智能体系统的结构、任务分解与路径选择进行一体化建模，并通过数据驱动的方式实现端到端优化。框架包含三个关键步骤：基于历史工作流构建流网络、利用 REINFORCE 算法强化学习优化边选择、以及通过文本梯度反向传播优化节点内的提示词。此外，引入的节点跳跃机制（Skip-k）可在保持性能的同时显著降低计算开销。文章还提供了在 HumanEval、MATH500、DROP 等 7 个基准上的实验数据，证明 MANGO 在准确率和效率上均优于 AFlow、MaAS 等基线方法，尤其在 MATH500 上准确率提升 12.8%，结合 Skip-3 后训练时间缩短 41.5%。

💡 主要观点

- MANGO 通过强化学习联合优化多智能体流网络中的路径选择与节点提示。 框架将路径选择建模为马尔可夫决策过程，使用 REINFORCE 算法优化；同时利用文本梯度反向传播更新节点提示词，形成相互依赖的优化循环。

节点跳跃机制在保持准确率的前提下显著降低计算成本。 通过 Skip-k 参数控制跳跃步数，跳过已充分优化的节点并复用历史中间步骤，在 MATH500 上结合 Skip-3 使训练时间缩短 41.5%，推理时间缩短 47.4%。

MANGO 在多个基准上超越现有自动化工作流生成方法。 在 MATH500、DROP、HumanEval 等 7 个数据集上，MANGO 均取得最佳结果，MATH500 准确率比 MaAS 提升 12.8%，DROP F1 比 AFlow 提升 5.1%。

💬 文章金句

- 该框架一体化建模多智能体系统结构、任务分解与路径选择，实现端到端协作优化。

强化学习边优化与文本梯度节点优化的相互依赖性：更新节点的提示词会修改状态的内容，这将会直接影响路径选择策略；反之，采样路径决定了流网络中哪些节点的提示词会被实际更新。

📊 文章信息

AI 初评：84

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2798

标签： AI Agent, 多智能体系统, 强化学习, 工作流优化, LLM

阅读完整文章

解锁 Agent Swarm 新潜力，openJiuwen 又一力作：多智能体流网络

🤖 問 AI