VAST 提出了一种全新的世界模型架构,将世界状态与画面渲染彻底解耦,通过独立维护的底层状态实现环境持久化与多人交互,为 AI 理解物理世界提供了不同于视频生成和空间智能派的技术路线。
📝 详细摘要
本文深入分析了 AI 公司 VAST 在世界模型赛道上的独特技术路线。当前世界模型领域存在两大主流派别:视频生成派(如 Google Genie)通过预测下一帧像素来模拟世界,但无法维持状态一致性;空间智能派(如 World Labs)能构建静态 3D 场景,但缺乏时间维度和交互能力。VAST 的 Project Eden 提出了一种「状态与渲染原生解耦」的三层架构:底层独立维护结构化世界状态(场景几何、物体身份、事件逻辑),中间层根据观察者视角转换状态信息,上层仅负责生成式渲染。这种架构带来了环境持久化、多人共享同一世界、确定性动作推演等关键能力。VAST 利用其 Tripo 3D 生成技术积累,对互联网视频进行反向解构以获取训练数据,同时结合游戏引擎合成数据。文章认为,这种架构可能颠覆传统 DCC 工具和游戏引擎,成为 AI 原生的互动内容基础设施。
💡 主要观点
- VAST 提出状态与渲染解耦的世界模型架构,区别于视频生成和空间智能派。 Project Eden 将世界状态(几何、物体、事件)与画面渲染彻底分离,底层状态独立维护且持续存在,上层按需渲染画面,解决了视频生成派状态不持久和空间智能派缺乏时间维度的问题。
💬 文章金句
- 资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。
- 一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。
- 从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。
- 画面流畅不等于世界在运转。
📊 文章信息
AI 初评:88
来源:爱范儿
作者:张子豪
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4231
标签: 世界模型, VAST, Project Eden, 状态解耦, 3D 生成