← 回總覽

登顶 HuggingFace 日榜!英伟达清华团队γ-World:把世界模型从单机打到联机

📅 2026-05-30 10:30 机器之心 人工智能 2 分鐘 1749 字 評分: 88
世界模型 多智能体 Gamma-World NVIDIA Physical AI
📌 一句话摘要 英伟达与清华团队发布 Gamma-World,通过重新设计位置编码和注意力机制,实现了可零样本扩展至多玩家的多智能体世界模型,解决了现有方案对称性破坏和算力平方爆炸的核心瓶颈。 📝 详细摘要 本文报道了英伟达、清华大学、多伦多大学和 Vector Institute 联合发布的多智能体世界模型 Gamma-World。文章指出,现有世界模型(如 Sora、Cosmos、Genie)均基于单参与者前提,无法处理多人游戏、工厂产线、具身智能体训练等真实场景中的因果耦合问题。此前 Solaris 等方案虽实现了双人交互,但存在两个结构性问题:一是通过固定槽位身份向量破坏了玩家间的

📌 一句话摘要

英伟达与清华团队发布 Gamma-World,通过重新设计位置编码和注意力机制,实现了可零样本扩展至多玩家的多智能体世界模型,解决了现有方案对称性破坏和算力平方爆炸的核心瓶颈。

📝 详细摘要

本文报道了英伟达、清华大学、多伦多大学和 Vector Institute 联合发布的多智能体世界模型 Gamma-World。文章指出,现有世界模型(如 Sora、Cosmos、Genie)均基于单参与者前提,无法处理多人游戏、工厂产线、具身智能体训练等真实场景中的因果耦合问题。此前 Solaris 等方案虽实现了双人交互,但存在两个结构性问题:一是通过固定槽位身份向量破坏了玩家间的对称性,导致无法扩展玩家数量;二是全连接注意力机制导致算力随玩家数量平方增长。Gamma-World 从底层重新设计:采用正单纯形顶点编码解决对称性问题,使任意玩家间几何关系一致,无需重新训练即可零样本扩展至四人;引入 hub token 作为共享通信枢纽,将计算复杂度从平方级降至线性级,8 人场景下延迟从 17.6ms 降至 4.5ms。实验展示了双人 Minecraft 实时同步、零样本四人泛化以及真实机械臂双臂协同场景。文章认为,多智能体世界模型有望成为 Physical AI 训练数据的生成器,打破真实物理交互数据稀缺的瓶颈,推动 scaling law 在 Physical AI 领域的复现。

💡 主要观点

- 现有世界模型均基于单参与者前提,无法处理多智能体场景中的因果耦合问题。 多人游戏、工厂产线、具身智能体训练等场景中,一个主体的行为会改变共享环境状态,所有其他主体必须感知并据此行动,现有单智能体框架在设计层面未预留多参与者接口。

Gamma-World 通过正单纯形顶点编码解决了玩家对称性问题,实现零样本扩展。 将每个玩家映射到旋转角空间中正单纯形的顶点上,任意两点距离相等,模型不绑定固定玩家数量,训练时用两人,推理时可零样本扩展至四人,无需重新训练。
Gamma-World 引入 hub token 将计算复杂度从平方级降至线性级。 玩家不再两两直连,而是通过共享通信枢纽进行信息传递,8 人场景下算力消耗仅为全连接方案的八分之一,延迟从 17.6ms 降至 4.5ms,支持实时交互。
多智能体世界模型有望成为 Physical AI 训练数据的生成器,突破数据瓶颈。 高质量多智能体交互数据极度稀缺,世界模型可在虚拟环境中 24 小时不间断生成轨迹数据,且生成过程可主动设计,形成「更好的世界模型→更高质量训练数据→更好的 policy→更多样交互轨迹」的自我加速飞轮。

💬 文章金句

- 这不是单智能体框架加点数据就能解决的,是设计层面本就没有预留接口的问题。

  • 模型学到的是「这两个特定角色如何互动」,而不是「多个平等的玩家如何共享一个世界」。
  • 这个模型从来没见过四个人的训练数据。推理时只需要从单纯形顶点池里多取两个顶点,四路同步视角直接生成,共享世界状态完整保留。
  • 真实世界采数据是被动的,世界模型生成数据是主动的,这个主动性本身就是一个质的跃升。
  • 从单机到联机,世界模型的下一场战争,才刚刚开始。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3250

标签: 世界模型, 多智能体, Gamma-World, NVIDIA, Physical AI

阅读完整文章

查看原文 → 發佈: 2026-05-30 10:30:00 收錄: 2026-05-30 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。