世界模型赛道，VAST 选了一条还没有人走过的路

📌 一句话摘要

VAST 提出了一种全新的世界模型架构，将世界状态与画面渲染彻底解耦，通过独立维护的底层状态实现环境持久化与多人交互，为 AI 理解物理世界提供了不同于视频生成和空间智能派的技术路线。

📝 详细摘要

本文深入分析了 AI 公司 VAST 在世界模型赛道上的独特技术路线。当前世界模型领域存在两大主流派别：视频生成派（如 Google Genie）通过预测下一帧像素来模拟世界，但无法维持状态一致性；空间智能派（如 World Labs）能构建静态 3D 场景，但缺乏时间维度和交互能力。VAST 的 Project Eden 提出了一种「状态与渲染原生解耦」的三层架构：底层独立维护结构化世界状态（场景几何、物体身份、事件逻辑），中间层根据观察者视角转换状态信息，上层仅负责生成式渲染。这种架构带来了环境持久化、多人共享同一世界、确定性动作推演等关键能力。VAST 利用其 Tripo 3D 生成技术积累，对互联网视频进行反向解构以获取训练数据，同时结合游戏引擎合成数据。文章认为，这种架构可能颠覆传统 DCC 工具和游戏引擎，成为 AI 原生的互动内容基础设施。

💡 主要观点

- VAST 提出状态与渲染解耦的世界模型架构，区别于视频生成和空间智能派。 Project Eden 将世界状态（几何、物体、事件）与画面渲染彻底分离，底层状态独立维护且持续存在，上层按需渲染画面，解决了视频生成派状态不持久和空间智能派缺乏时间维度的问题。

解耦架构带来环境持久化和多人共享能力。 底层状态独立于任何视角，物体离开镜头不会消失；多个玩家可共享同一底层状态，各自渲染不同视角，实现多人交互并发，这在纯视频框架下几乎无法实现。

VAST 利用 3D 生成技术反向解构互联网视频，获取训练数据。 通过 Tripo 积累的 3D 基础模型能力，对海量 2D 视频恢复深度、相机位姿、几何轨迹等信息，还原背后的空间状态，同时结合游戏引擎合成数据，形成「状态-结果」完全对应的训练数据。

世界模型的发展方向是从预测像素转向推演状态。 视频生成模型擅长生成视觉上连贯的画面，但无法可靠地存储和推演动作结果。世界模型需要的是确定性推演——给定动作能预测下一个状态，而不仅仅是生成一段好看的视频。

💬 文章金句

- 资产只是「世界底层的状态」，离一个会运转的世界还差着一整套规则。

一个模型如果没法对动作做出正确的预测和推演，「也很难叫它世界模型」。
从预测下一帧像素，到推演下一个状态，世界模型的终点开始清晰了。
画面流畅不等于世界在运转。

📊 文章信息

AI 初评：88

来源：爱范儿

作者：张子豪

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4231

标签：世界模型, VAST, Project Eden, 状态解耦, 3D 生成

阅读完整文章

世界模型赛道，VAST 选了一条还没有人走过的路

🤖 問 AI