本文从多篇前沿研究出发,论证当前 LLM 因训练范式(单体 MDP)而天生缺乏合作能力,并提出以市场机制(拍卖、桶旅式支付、经济自然选择)替代中央编排,作为让多 Agent 系统涌现合作的有效路径。
📝 详细摘要
文章围绕「AI 为何不合作」与「如何让 AI 学会合作」两个核心问题展开。首先引用 2026 年多项研究(北卡大学、UIUC、斯坦福、Google DeepMind)揭示现状:多 Agent 系统失败率高达 41%-87%,核心原因并非模型能力不足,而是协调崩溃与趋同推理;能力越强的模型(如 o3)反而合作能力越差,根源在于当前 LLM 的训练过程本质上是「单人游戏」(MDP),从未面对过真正的他者,形成「唯我论」认知架构。接着,文章批判了当下主流的 Orchestrator-Worker 架构,将其类比为「计划经济」,指出其面临分工悖论、信用分配失灵和哈耶克「知识分散诅咒」三大结构性困境。最后,重点介绍哈佛与 MIT 的《Economy of Minds》论文,该论文提出一个无编排的「自由市场」系统,通过拍卖、桶旅式信用分配、经济自然选择与新手保护四个机制,让 Agent 在自利行为中涌现合作,在 MATH、HumanEval、ALFWorld 等基准上显著超越单 Agent 与编排式系统,并从理论上证明了市场机制可渐近达到全知编排者的最优配置。文章结尾指出该方向的简化局限与未来拓展空间,并断言多 Agent 系统的出路在于「设计合作条件」而非「设计合作结果」。
💡 主要观点
- 当前 LLM 因训练范式(MDP)而天生缺乏合作能力,形成「唯我论」认知架构。 预训练与后训练都是单体优化,模型从未在「他者存在」的环境中学习,导致部署到多 Agent 环境时自动进入零和博弈模式,能力越强合作越差。
💬 文章金句
- 如果你想让不会合作的 AI 学会合作,不要给它们写剧本,给它们一个市场。
- 当前所有主流 LLM 的训练过程,从预训练到后训练,在形式上都是 MDP,本质上都在日复一日地「打老虎机」。
- 计划经济的理论上限(全知全能的中央规划者能达到的最优配置),就是市场经济在足够时间后会收敛到的均衡态。
- 通才把能力摊薄在所有领域上,每个方向都只能浅尝辄止;专才则把全部预算压在一个方向,做到极致。
- 这是从「设计合作结果」到「设计合作条件」的范式转移。
📊 文章信息
AI 初评:92
来源:腾讯科技
作者:腾讯科技
分类:人工智能
语言:中文
阅读时间:31 分钟
字数:7696
标签: AI Agent, 多智能体系统, LLM, AI 研究, AI 架构