← 回總覽

世界模型赛道,VAST 选了一条还没有人走过的路

📅 2026-06-02 01:05 张子豪 人工智能 2 分鐘 1486 字 評分: 88
世界模型 VAST Project Eden 状态解耦 3D 生成
📌 一句话摘要 VAST 提出了一种全新的世界模型架构,将世界状态与画面渲染彻底解耦,通过独立维护的底层状态实现环境持久化与多人交互,为 AI 理解物理世界提供了不同于视频生成和空间智能派的技术路线。 📝 详细摘要 本文深入分析了 AI 公司 VAST 在世界模型赛道上的独特技术路线。当前世界模型领域存在两大主流派别:视频生成派(如 Google Genie)通过预测下一帧像素来模拟世界,但无法维持状态一致性;空间智能派(如 World Labs)能构建静态 3D 场景,但缺乏时间维度和交互能力。VAST 的 Project Eden 提出了一种「状态与渲染原生解耦」的三层架构:底层独立维

📌 一句话摘要

VAST 提出了一种全新的世界模型架构,将世界状态与画面渲染彻底解耦,通过独立维护的底层状态实现环境持久化与多人交互,为 AI 理解物理世界提供了不同于视频生成和空间智能派的技术路线。

📝 详细摘要

本文深入分析了 AI 公司 VAST 在世界模型赛道上的独特技术路线。当前世界模型领域存在两大主流派别:视频生成派(如 Google Genie)通过预测下一帧像素来模拟世界,但无法维持状态一致性;空间智能派(如 World Labs)能构建静态 3D 场景,但缺乏时间维度和交互能力。VAST 的 Project Eden 提出了一种「状态与渲染原生解耦」的三层架构:底层独立维护结构化世界状态(场景几何、物体身份、事件逻辑),中间层根据观察者视角转换状态信息,上层仅负责生成式渲染。这种架构带来了环境持久化、多人共享同一世界、确定性动作推演等关键能力。VAST 利用其 Tripo 3D 生成技术积累,对互联网视频进行反向解构以获取训练数据,同时结合游戏引擎合成数据。文章认为,这种架构可能颠覆传统 DCC 工具和游戏引擎,成为 AI 原生的互动内容基础设施。

💡 主要观点

- VAST 提出状态与渲染解耦的世界模型架构,区别于视频生成和空间智能派。 Project Eden 将世界状态(几何、物体、事件)与画面渲染彻底分离,底层状态独立维护且持续存在,上层按需渲染画面,解决了视频生成派状态不持久和空间智能派缺乏时间维度的问题。

解耦架构带来环境持久化和多人共享能力。 底层状态独立于任何视角,物体离开镜头不会消失;多个玩家可共享同一底层状态,各自渲染不同视角,实现多人交互并发,这在纯视频框架下几乎无法实现。
VAST 利用 3D 生成技术反向解构互联网视频,获取训练数据。 通过 Tripo 积累的 3D 基础模型能力,对海量 2D 视频恢复深度、相机位姿、几何轨迹等信息,还原背后的空间状态,同时结合游戏引擎合成数据,形成「状态-结果」完全对应的训练数据。
世界模型的发展方向是从预测像素转向推演状态。 视频生成模型擅长生成视觉上连贯的画面,但无法可靠地存储和推演动作结果。世界模型需要的是确定性推演——给定动作能预测下一个状态,而不仅仅是生成一段好看的视频。

💬 文章金句

- 资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。

  • 一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。
  • 从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。
  • 画面流畅不等于世界在运转。

📊 文章信息

AI 初评:88

来源:爱范儿

作者:张子豪

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4231

标签: 世界模型, VAST, Project Eden, 状态解耦, 3D 生成

阅读完整文章

查看原文 → 發佈: 2026-06-02 01:05:59 收錄: 2026-06-01 20:00:47

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。