← 回總覽

机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

📅 2026-05-10 08:00 宝玉 人工智能 2 分鐘 1866 字 評分: 88
WAM VLA Jim Fan 英伟达 人形机器人
📌 一句话摘要 英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上公开宣告 VLA 机器人路线过时,提出以世界动作模型(WAM)为核心的新范式,并给出 2040 年实现机器人终局的路线图。 📝 详细摘要 本文编译自英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的演讲。Jim Fan 公开宣告过去三年主流的 VLA(视觉-语言-动作)架构已经过时,包括英伟达自家的 GR00T 项目,并提出了新的范式——世界动作模型(WAM),其代表作是英伟达 2 月发布的 140 亿参数模型 DreamZero。他提出了「底层

📌 一句话摘要

英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上公开宣告 VLA 机器人路线过时,提出以世界动作模型(WAM)为核心的新范式,并给出 2040 年实现机器人终局的路线图。

📝 详细摘要

本文编译自英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的演讲。Jim Fan 公开宣告过去三年主流的 VLA(视觉-语言-动作)架构已经过时,包括英伟达自家的 GR00T 项目,并提出了新的范式——世界动作模型(WAM),其代表作是英伟达 2 月发布的 140 亿参数模型 DreamZero。他提出了「底层同构」框架,将 LLM 的预训练→对齐→强化学习三步路线复制到机器人领域,用视频世界模型替代语言模型,用人类第一人称视频替代遥操作数据。演讲还介绍了 EgoScale(21,000 小时人类视频预训练,发现灵巧操作神经缩放定律 R²=0.998)、DexUMI(外骨骼数据采集装置)和 Dream Dojo(完全数据驱动的神经仿真器)等关键技术突破。Jim Fan 预测遥操作数据将在 1-2 年内趋近于零,并给出了 2040 年实现机器人物理自动研究的终局路线图,置信度 95%。文章末尾附有五个关键问题的速答和三个值得追踪的悬念。

💡 主要观点

- Jim Fan 公开宣告 VLA 架构过时,提出世界动作模型(WAM)作为新范式。 VLA 架构参数大头在语言模型,擅长编码名词而非动词,无法有效处理物理交互。WAM 以视频世界模型为核心,通过动作微调将「所有可能的未来」收敛到有意义的动作轨迹,代表作是 140 亿参数的 DreamZero。

提出「底层同构」框架,将 LLM 的成功路径复制到机器人领域。 将 LLM 的预训练(GPT-3)、对齐(InstructGPT)、强化学习(o1)三步分别对应到视频世界模型预训练、动作微调、强化学习,用视频世界模型替代语言模型作为基础架构。
遥操作数据将被人类第一人称视频取代,EgoScale 发现灵巧操作缩放定律。 遥操作数据采集效率极低(每天有效 3 小时),英伟达的 EgoScale 用 21,000 小时人类第一人称视频预训练,仅用 50 小时动捕数据微调,发现灵巧操作的神经缩放定律(R²=0.998),验证了数据规模与性能的对数线性关系。
Dream Dojo 构建完全数据驱动的神经仿真器,绕过传统物理引擎。 不依赖物理方程和图形引擎,将视频世界模型直接转化为神经仿真器,输入连续动作信号实时输出下一帧画面和传感器状态,实现「算力等于环境等于数据」。
给出 2040 年机器人终局路线图,置信度 95%。 三个里程碑:2-3 年内通过物理图灵测试,随后实现物理 API(暗工厂和自动化实验室),最终在 2040 年前实现机器人自主设计制造下一代机器人。

💬 文章金句

- VLA 擅长编码知识和名词,不擅长物理和动词。重心放在了不对的地方。

  • 为我们亲爱的 VLA 默哀片刻。它已完成了历史使命。安息吧。世界动作模型万岁。
  • 现在算力等于环境等于数据。或者用某位智者的话:买得越多,省得越多。这条消息已获得我老板批准。
  • 我们这一代人,生得太晚,没赶上大航海时代去探索地球;又生得太早,够不着星辰大海去探索宇宙。但我们生得刚刚好,赶上了攻克机器人难题的时代。
  • 它大概相当于 GPT-2 的阶段,方向对了,但表现还不够稳定可靠。

📊 文章信息

AI 初评:88

来源:宝玉的分享

作者:宝玉

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3330

标签: WAM, VLA, Jim Fan, 英伟达, 人形机器人

阅读完整文章

查看原文 → 發佈: 2026-05-10 08:00:00 收錄: 2026-05-10 16:00:14

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。