机器人的终局：英伟达 Jim Fan 宣告 VLA 时代结束，WAM 登场

📌 一句话摘要

英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上公开宣告 VLA 机器人路线过时，提出以世界动作模型（WAM）为核心的新范式，并给出 2040 年实现机器人终局的路线图。

📝 详细摘要

本文编译自英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的演讲。Jim Fan 公开宣告过去三年主流的 VLA（视觉-语言-动作）架构已经过时，包括英伟达自家的 GR00T 项目，并提出了新的范式——世界动作模型（WAM），其代表作是英伟达 2 月发布的 140 亿参数模型 DreamZero。他提出了「底层同构」框架，将 LLM 的预训练→对齐→强化学习三步路线复制到机器人领域，用视频世界模型替代语言模型，用人类第一人称视频替代遥操作数据。演讲还介绍了 EgoScale（21，000 小时人类视频预训练，发现灵巧操作神经缩放定律 R²=0.998）、DexUMI（外骨骼数据采集装置）和 Dream Dojo（完全数据驱动的神经仿真器）等关键技术突破。Jim Fan 预测遥操作数据将在 1-2 年内趋近于零，并给出了 2040 年实现机器人物理自动研究的终局路线图，置信度 95%。文章末尾附有五个关键问题的速答和三个值得追踪的悬念。

💡 主要观点

- Jim Fan 公开宣告 VLA 架构过时，提出世界动作模型（WAM）作为新范式。 VLA 架构参数大头在语言模型，擅长编码名词而非动词，无法有效处理物理交互。WAM 以视频世界模型为核心，通过动作微调将「所有可能的未来」收敛到有意义的动作轨迹，代表作是 140 亿参数的 DreamZero。

提出「底层同构」框架，将 LLM 的成功路径复制到机器人领域。 将 LLM 的预训练（GPT-3）、对齐（InstructGPT）、强化学习（o1）三步分别对应到视频世界模型预训练、动作微调、强化学习，用视频世界模型替代语言模型作为基础架构。

遥操作数据将被人类第一人称视频取代，EgoScale 发现灵巧操作缩放定律。 遥操作数据采集效率极低（每天有效 3 小时），英伟达的 EgoScale 用 21，000 小时人类第一人称视频预训练，仅用 50 小时动捕数据微调，发现灵巧操作的神经缩放定律（R²=0.998），验证了数据规模与性能的对数线性关系。

Dream Dojo 构建完全数据驱动的神经仿真器，绕过传统物理引擎。 不依赖物理方程和图形引擎，将视频世界模型直接转化为神经仿真器，输入连续动作信号实时输出下一帧画面和传感器状态，实现「算力等于环境等于数据」。

给出 2040 年机器人终局路线图，置信度 95%。 三个里程碑：2-3 年内通过物理图灵测试，随后实现物理 API（暗工厂和自动化实验室），最终在 2040 年前实现机器人自主设计制造下一代机器人。

💬 文章金句

- VLA 擅长编码知识和名词，不擅长物理和动词。重心放在了不对的地方。

为我们亲爱的 VLA 默哀片刻。它已完成了历史使命。安息吧。世界动作模型万岁。
现在算力等于环境等于数据。或者用某位智者的话：买得越多，省得越多。这条消息已获得我老板批准。
我们这一代人，生得太晚，没赶上大航海时代去探索地球；又生得太早，够不着星辰大海去探索宇宙。但我们生得刚刚好，赶上了攻克机器人难题的时代。
它大概相当于 GPT-2 的阶段，方向对了，但表现还不够稳定可靠。

📊 文章信息

AI 初评：88

来源：宝玉的分享

作者：宝玉

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3330

标签： WAM, VLA, Jim Fan, 英伟达, 人形机器人

阅读完整文章

机器人的终局：英伟达 Jim Fan 宣告 VLA 时代结束，WAM 登场

🤖 問 AI