「世界模型」究竟是什么？一文看懂其前世今生与百亿赌局

📌 一句话摘要

本文系统梳理了「世界模型」概念背后两条独立演进的研究脉络——强化学习世界的「做梦」传统与计算机视觉的「从观看中学习」传统，并分析了它们在 2024-2025 年间的融合、当前能力边界、应用场景以及百亿美元资本涌入背后的战略格局。

📝 详细摘要

文章源自 MoE Capital 的深度博客，由机器之心编译。它首先指出「世界模型」是 AI 领域最被滥用的术语之一，涵盖了视频生成器、强化学习梦境机器、抽象表示学习器等不同事物。文章核心贡献在于厘清了两条长达数十年的独立研究脉络：一条是强化学习社区从 1990 年代开始的「让智能体在想象中做梦」传统（如 Dreamer 系列、MuZero），另一条是计算机视觉社区从海量人类视频中学习物理知识的「从观看中学习」传统（如 R3M、VPT、Sora）。这两条线索在 2024-2025 年间因技术突破（AR-DiT、Self Forcing）和机器人领域对数据的渴求而真正交汇，孕育出「视频世界模型」。文章深入拆解了世界模型当前的真实能力边界，从最成熟的自动驾驶仿真、娱乐游戏，到前景可期的机器人策略评估（DreamDojo 实现 r=0.995 的预测相关性），再到尚未充分验证的直接机器人控制。文章还剖析了资本盛宴背后的战略格局：NVIDIA 正通过全栈开源构建物理 AI 时代的「CUDA 护城河」；Yann LeCun 押注绕开像素预测的 JEPA 架构；而 Physical Intelligence 的旗舰模型已悄然整合世界模型组件。文章最后给出了清醒的判断：整个机器人 AI 领域的成熟度远比融资规模所呈现的更早期，通用操作任务对所有方法来说仍是未解难题。

💡 主要观点

- 「世界模型」概念源于两条独立研究脉络的融合。 强化学习社区（Dreamer、MuZero）贡献了动作条件化和「在想象中做梦」的机制；计算机视觉社区（Sora、R3M）贡献了逼真视频生成和互联网规模数据。两者在 2024-2025 年因技术突破（AR-DiT、Self Forcing）和机器人数据需求而交汇。

世界模型与视频生成器的核心区别在于因果性和交互性。 真正的世界模型必须满足因果性（时间单向流动）和交互性（实时响应动作），而不仅仅是生成高质量视频。持久性、实时性和物理准确性则是连续谱系上的要求。

世界模型在自动驾驶仿真和策略评估上已展现成熟价值，但通用机器人控制仍为未解难题。 DreamDojo 在策略评估上达到 r=0.995 的预测相关性，自动驾驶仿真已落地。但直接机器人控制（如 DreamZero）缺乏独立复现，通用家庭操作、灵巧操作对所有方法仍是挑战。

NVIDIA 正通过全栈开源策略构建物理 AI 时代的「CUDA 护城河」。 NVIDIA 将 Cosmos、DreamDojo、DreamZero 等技术栈全部以 Apache 2.0 开源，但实时运行依赖 Blackwell 硬件。这迫使纯世界模型初创公司必须通过领域数据、垂直整合或推理优化来建立差异化。

整个机器人 AI 领域比百亿美元融资规模所呈现的更早期。 导航和受限仓库拣选可可靠运行，但通用操作、家具组装等任务对所有方法（VLA 或世界模型）仍是难题。两种方法并非竞争，而是在融合——领先的 VLA（如 Pi-0.7）已整合世界模型组件。

💬 文章金句

- 大多数被冠以「世界模型」之名的东西根本不是真正的世界模型。这个术语如今涵盖了视频生成器、强化学习的梦境机器、抽象表示学习器以及动作预测基础模型。

因果性和交互性是二元的。没有这两者，你就没有世界模型。其余三条（持久性、实时性、物理准确性）则是连续谱系。
整个机器人 AI 领域的成熟度远比融资规模所呈现的要低得多。
NVIDIA 的开源技术栈向这一领域的所有人提出了一个真实的问题：什么是可防御的？
我们这一代人，生得太晚，错过了探索地球的时代；生得太早，又赶不上探索星际的时代。但我们或许恰好赶上了——教会机器将物理世界梦入现实的时代。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：44 分钟

字数：10778

标签：世界模型, 强化学习, 视频生成, 机器人, NVIDIA

阅读完整文章

「世界模型」究竟是什么？一文看懂其前世今生与百亿赌局

🤖 問 AI