登顶 HuggingFace 日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

📌 一句话摘要

英伟达与清华团队发布 Gamma-World，通过重新设计位置编码和注意力机制，实现了可零样本扩展至多玩家的多智能体世界模型，解决了现有方案对称性破坏和算力平方爆炸的核心瓶颈。

📝 详细摘要

本文报道了英伟达、清华大学、多伦多大学和 Vector Institute 联合发布的多智能体世界模型 Gamma-World。文章指出，现有世界模型（如 Sora、Cosmos、Genie）均基于单参与者前提，无法处理多人游戏、工厂产线、具身智能体训练等真实场景中的因果耦合问题。此前 Solaris 等方案虽实现了双人交互，但存在两个结构性问题：一是通过固定槽位身份向量破坏了玩家间的对称性，导致无法扩展玩家数量；二是全连接注意力机制导致算力随玩家数量平方增长。Gamma-World 从底层重新设计：采用正单纯形顶点编码解决对称性问题，使任意玩家间几何关系一致，无需重新训练即可零样本扩展至四人；引入 hub token 作为共享通信枢纽，将计算复杂度从平方级降至线性级，8 人场景下延迟从 17.6ms 降至 4.5ms。实验展示了双人 Minecraft 实时同步、零样本四人泛化以及真实机械臂双臂协同场景。文章认为，多智能体世界模型有望成为 Physical AI 训练数据的生成器，打破真实物理交互数据稀缺的瓶颈，推动 scaling law 在 Physical AI 领域的复现。

💡 主要观点

- 现有世界模型均基于单参与者前提，无法处理多智能体场景中的因果耦合问题。 多人游戏、工厂产线、具身智能体训练等场景中，一个主体的行为会改变共享环境状态，所有其他主体必须感知并据此行动，现有单智能体框架在设计层面未预留多参与者接口。

Gamma-World 通过正单纯形顶点编码解决了玩家对称性问题，实现零样本扩展。 将每个玩家映射到旋转角空间中正单纯形的顶点上，任意两点距离相等，模型不绑定固定玩家数量，训练时用两人，推理时可零样本扩展至四人，无需重新训练。

Gamma-World 引入 hub token 将计算复杂度从平方级降至线性级。 玩家不再两两直连，而是通过共享通信枢纽进行信息传递，8 人场景下算力消耗仅为全连接方案的八分之一，延迟从 17.6ms 降至 4.5ms，支持实时交互。

多智能体世界模型有望成为 Physical AI 训练数据的生成器，突破数据瓶颈。 高质量多智能体交互数据极度稀缺，世界模型可在虚拟环境中 24 小时不间断生成轨迹数据，且生成过程可主动设计，形成「更好的世界模型→更高质量训练数据→更好的 policy→更多样交互轨迹」的自我加速飞轮。

💬 文章金句

- 这不是单智能体框架加点数据就能解决的，是设计层面本就没有预留接口的问题。

模型学到的是「这两个特定角色如何互动」，而不是「多个平等的玩家如何共享一个世界」。
这个模型从来没见过四个人的训练数据。推理时只需要从单纯形顶点池里多取两个顶点，四路同步视角直接生成，共享世界状态完整保留。
真实世界采数据是被动的，世界模型生成数据是主动的，这个主动性本身就是一个质的跃升。
从单机到联机，世界模型的下一场战争，才刚刚开始。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3250

标签：世界模型, 多智能体, Gamma-World, NVIDIA, Physical AI

阅读完整文章

登顶 HuggingFace 日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

🤖 問 AI