英伟达与清华团队发布 Gamma-World,通过重新设计位置编码和注意力机制,实现了可零样本扩展至多玩家的多智能体世界模型,解决了现有方案对称性破坏和算力平方爆炸的核心瓶颈。
📝 详细摘要
本文报道了英伟达、清华大学、多伦多大学和 Vector Institute 联合发布的多智能体世界模型 Gamma-World。文章指出,现有世界模型(如 Sora、Cosmos、Genie)均基于单参与者前提,无法处理多人游戏、工厂产线、具身智能体训练等真实场景中的因果耦合问题。此前 Solaris 等方案虽实现了双人交互,但存在两个结构性问题:一是通过固定槽位身份向量破坏了玩家间的对称性,导致无法扩展玩家数量;二是全连接注意力机制导致算力随玩家数量平方增长。Gamma-World 从底层重新设计:采用正单纯形顶点编码解决对称性问题,使任意玩家间几何关系一致,无需重新训练即可零样本扩展至四人;引入 hub token 作为共享通信枢纽,将计算复杂度从平方级降至线性级,8 人场景下延迟从 17.6ms 降至 4.5ms。实验展示了双人 Minecraft 实时同步、零样本四人泛化以及真实机械臂双臂协同场景。文章认为,多智能体世界模型有望成为 Physical AI 训练数据的生成器,打破真实物理交互数据稀缺的瓶颈,推动 scaling law 在 Physical AI 领域的复现。
💡 主要观点
- 现有世界模型均基于单参与者前提,无法处理多智能体场景中的因果耦合问题。 多人游戏、工厂产线、具身智能体训练等场景中,一个主体的行为会改变共享环境状态,所有其他主体必须感知并据此行动,现有单智能体框架在设计层面未预留多参与者接口。
💬 文章金句
- 这不是单智能体框架加点数据就能解决的,是设计层面本就没有预留接口的问题。
- 模型学到的是「这两个特定角色如何互动」,而不是「多个平等的玩家如何共享一个世界」。
- 这个模型从来没见过四个人的训练数据。推理时只需要从单纯形顶点池里多取两个顶点,四路同步视角直接生成,共享世界状态完整保留。
- 真实世界采数据是被动的,世界模型生成数据是主动的,这个主动性本身就是一个质的跃升。
- 从单机到联机,世界模型的下一场战争,才刚刚开始。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3250
标签: 世界模型, 多智能体, Gamma-World, NVIDIA, Physical AI