本文介绍华为泊松实验室提出的 MANGO 框架,通过强化学习优化多智能体流网络中的路径选择,并结合文本梯度与节点跳跃机制,实现端到端协作效率与稳定性的提升。
📝 详细摘要
文章详细介绍了由华为泊松实验室与维纳研究所提出的 MANGO(Multi-Agent Network Gradient Optimization)框架,旨在解决多智能体协作中因错误传播导致的系统不稳定问题。MANGO 的核心创新在于将多智能体系统的结构、任务分解与路径选择进行一体化建模,并通过数据驱动的方式实现端到端优化。框架包含三个关键步骤:基于历史工作流构建流网络、利用 REINFORCE 算法强化学习优化边选择、以及通过文本梯度反向传播优化节点内的提示词。此外,引入的节点跳跃机制(Skip-k)可在保持性能的同时显著降低计算开销。文章还提供了在 HumanEval、MATH500、DROP 等 7 个基准上的实验数据,证明 MANGO 在准确率和效率上均优于 AFlow、MaAS 等基线方法,尤其在 MATH500 上准确率提升 12.8%,结合 Skip-3 后训练时间缩短 41.5%。
💡 主要观点
- MANGO 通过强化学习联合优化多智能体流网络中的路径选择与节点提示。 框架将路径选择建模为马尔可夫决策过程,使用 REINFORCE 算法优化;同时利用文本梯度反向传播更新节点提示词,形成相互依赖的优化循环。
💬 文章金句
- 该框架一体化建模多智能体系统结构、任务分解与路径选择,实现端到端协作优化。
- 强化学习边优化与文本梯度节点优化的相互依赖性:更新节点的提示词会修改状态的内容,这将会直接影响路径选择策略;反之,采样路径决定了流网络中哪些节点的提示词会被实际更新。
📊 文章信息
AI 初评:84
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2798
标签: AI Agent, 多智能体系统, 强化学习, 工作流优化, LLM