英伟达清华团队提出 Gamma-World：世界模型从「一个人玩」到「多人共处」

📌 一句话摘要

英伟达联合清华等机构提出 Gamma-World，通过单纯形旋转编码和稀疏枢纽注意力，首次系统性解决了多智能体视频世界模型的身份对称表示与高效通信两大核心难题。

📝 详细摘要

文章介绍了英伟达、清华大学、多伦多大学和 Vector Institute 联合提出的 Gamma-World（γ-World）多智能体世界模型。现有视频世界模型几乎都基于单智能体假设，无法处理多个玩家共享同一演化世界的场景，主要面临身份编码破坏对称性和全连接注意力计算成本平方增长两大架构性缺陷。Gamma-World 从两个底层组件入手给出了系统性方案：一是提出单纯形旋转智能体编码（Simplex Rotary Agent Encoding），将玩家身份映射到正单纯形顶点，确保任意玩家之间的几何关系完全对称，无需可学习参数且支持零样本扩展到任意玩家数；二是设计稀疏枢纽注意力（Sparse Hub Attention），通过一组可学习的 hub token 实现轮辐式通信拓扑，将计算复杂度从平方级降至线性级。此外，采用三阶段训练策略（双向教师、因果学生、条件 Self-Forcing 蒸馏），在保证生成质量的同时实现 24 FPS 的实时流式推演。实验表明，Gamma-World 在多人 Minecraft 场景中全面超越现有最强模型 Solaris，FVD 平均降幅超 40%，且仅用双人数据训练即可零样本泛化到四人场景，并成功迁移至真实双臂机器人协同任务。

💡 主要观点

- 多智能体世界模型面临身份编码对称性和通信效率两大架构性缺陷。 现有方案如 Solaris 使用固定槽位身份编码破坏了玩家间的置换对称性，且全连接注意力计算成本随玩家数量平方增长，从 2 人到 8 人增长约 16 倍，无法通过工程优化解决。

单纯形旋转编码实现了玩家身份的对称表示和零样本扩展。 将玩家身份映射到正单纯形顶点，任意玩家间的旋转距离完全相等，无需可学习参数，训练时随机分配顶点，推理时启用新顶点即可支持更多玩家，实现双人训练四人直接跑通。

稀疏枢纽注意力将跨智能体通信复杂度从平方级降至线性级。 引入可学习的 hub token 作为共享世界状态瓶颈，每个智能体只与自身历史及 hub 交互，信息经两跳传递，计算量随玩家数量线性增长，同时编码了更合理的归纳偏置。

三阶段训练策略兼顾生成质量与实时推演。 先训练双向教师模型提供高质量分布，再训练因果学生模型适配流式推理，最后通过条件 Self-Forcing 蒸馏将多步采样压缩至 4 步，实现 24 FPS 实时推演且动作可控性不退化。

💬 文章金句

- 一个真正理解多智能体世界的模型，应当在结构上就是对称的，而不是见过足够多的数据之后，碰巧学出了近似对称的行为。前者是理解，后者只是拟合。

在架构中显式编码置换对称性约束，比让模型从数据中隐式学习这种结构，在样本效率和最终性能上都有显著优势。
稀疏枢纽注意力不只是节省了算力，它本身也是一个更合理的归纳偏置——在架构层面显式编码了「跨智能体信息应经过共享世界状态瓶颈」这一先验。
真正的世界模型，学会的不该只是「画面」，而是「规则」。

📊 文章信息

AI 初评：89

来源：量子位

作者：思邈

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4831

标签：世界模型, 多智能体, Gamma-World, NVIDIA, 清华大学

阅读完整文章

英伟达清华团队提出 Gamma-World：世界模型从「一个人玩」到「多人共处」

🤖 問 AI