← 回總覽

解锁 Agent Swarm 新潜力,openJiuwen 又一力作:多智能体流网络

📅 2026-06-08 10:07 机器之心 人工智能 2 分鐘 1387 字 評分: 84
AI Agent 多智能体系统 强化学习 工作流优化 LLM
📌 一句话摘要 本文介绍华为泊松实验室提出的 MANGO 框架,通过强化学习优化多智能体流网络中的路径选择,并结合文本梯度与节点跳跃机制,实现端到端协作效率与稳定性的提升。 📝 详细摘要 文章详细介绍了由华为泊松实验室与维纳研究所提出的 MANGO(Multi-Agent Network Gradient Optimization)框架,旨在解决多智能体协作中因错误传播导致的系统不稳定问题。MANGO 的核心创新在于将多智能体系统的结构、任务分解与路径选择进行一体化建模,并通过数据驱动的方式实现端到端优化。框架包含三个关键步骤:基于历史工作流构建流网络、利用 REINFORCE 算法强化学

📌 一句话摘要

本文介绍华为泊松实验室提出的 MANGO 框架,通过强化学习优化多智能体流网络中的路径选择,并结合文本梯度与节点跳跃机制,实现端到端协作效率与稳定性的提升。

📝 详细摘要

文章详细介绍了由华为泊松实验室与维纳研究所提出的 MANGO(Multi-Agent Network Gradient Optimization)框架,旨在解决多智能体协作中因错误传播导致的系统不稳定问题。MANGO 的核心创新在于将多智能体系统的结构、任务分解与路径选择进行一体化建模,并通过数据驱动的方式实现端到端优化。框架包含三个关键步骤:基于历史工作流构建流网络、利用 REINFORCE 算法强化学习优化边选择、以及通过文本梯度反向传播优化节点内的提示词。此外,引入的节点跳跃机制(Skip-k)可在保持性能的同时显著降低计算开销。文章还提供了在 HumanEval、MATH500、DROP 等 7 个基准上的实验数据,证明 MANGO 在准确率和效率上均优于 AFlow、MaAS 等基线方法,尤其在 MATH500 上准确率提升 12.8%,结合 Skip-3 后训练时间缩短 41.5%。

💡 主要观点

- MANGO 通过强化学习联合优化多智能体流网络中的路径选择与节点提示。 框架将路径选择建模为马尔可夫决策过程,使用 REINFORCE 算法优化;同时利用文本梯度反向传播更新节点提示词,形成相互依赖的优化循环。

节点跳跃机制在保持准确率的前提下显著降低计算成本。 通过 Skip-k 参数控制跳跃步数,跳过已充分优化的节点并复用历史中间步骤,在 MATH500 上结合 Skip-3 使训练时间缩短 41.5%,推理时间缩短 47.4%。
MANGO 在多个基准上超越现有自动化工作流生成方法。 在 MATH500、DROP、HumanEval 等 7 个数据集上,MANGO 均取得最佳结果,MATH500 准确率比 MaAS 提升 12.8%,DROP F1 比 AFlow 提升 5.1%。

💬 文章金句

- 该框架一体化建模多智能体系统结构、任务分解与路径选择,实现端到端协作优化。

  • 强化学习边优化与文本梯度节点优化的相互依赖性:更新节点的提示词会修改状态的内容,这将会直接影响路径选择策略;反之,采样路径决定了流网络中哪些节点的提示词会被实际更新。

📊 文章信息

AI 初评:84

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2798

标签: AI Agent, 多智能体系统, 强化学习, 工作流优化, LLM

阅读完整文章

查看原文 → 發佈: 2026-06-08 10:07:00 收錄: 2026-06-09 00:00:31

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。