英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上公开宣告 VLA 机器人路线过时,提出以世界动作模型(WAM)为核心的新范式,并给出 2040 年实现机器人终局的路线图。
📝 详细摘要
本文编译自英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的演讲。Jim Fan 公开宣告过去三年主流的 VLA(视觉-语言-动作)架构已经过时,包括英伟达自家的 GR00T 项目,并提出了新的范式——世界动作模型(WAM),其代表作是英伟达 2 月发布的 140 亿参数模型 DreamZero。他提出了「底层同构」框架,将 LLM 的预训练→对齐→强化学习三步路线复制到机器人领域,用视频世界模型替代语言模型,用人类第一人称视频替代遥操作数据。演讲还介绍了 EgoScale(21,000 小时人类视频预训练,发现灵巧操作神经缩放定律 R²=0.998)、DexUMI(外骨骼数据采集装置)和 Dream Dojo(完全数据驱动的神经仿真器)等关键技术突破。Jim Fan 预测遥操作数据将在 1-2 年内趋近于零,并给出了 2040 年实现机器人物理自动研究的终局路线图,置信度 95%。文章末尾附有五个关键问题的速答和三个值得追踪的悬念。
💡 主要观点
- Jim Fan 公开宣告 VLA 架构过时,提出世界动作模型(WAM)作为新范式。 VLA 架构参数大头在语言模型,擅长编码名词而非动词,无法有效处理物理交互。WAM 以视频世界模型为核心,通过动作微调将「所有可能的未来」收敛到有意义的动作轨迹,代表作是 140 亿参数的 DreamZero。
💬 文章金句
- VLA 擅长编码知识和名词,不擅长物理和动词。重心放在了不对的地方。
- 为我们亲爱的 VLA 默哀片刻。它已完成了历史使命。安息吧。世界动作模型万岁。
- 现在算力等于环境等于数据。或者用某位智者的话:买得越多,省得越多。这条消息已获得我老板批准。
- 我们这一代人,生得太晚,没赶上大航海时代去探索地球;又生得太早,够不着星辰大海去探索宇宙。但我们生得刚刚好,赶上了攻克机器人难题的时代。
- 它大概相当于 GPT-2 的阶段,方向对了,但表现还不够稳定可靠。
📊 文章信息
AI 初评:88
来源:宝玉的分享
作者:宝玉
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3330
标签: WAM, VLA, Jim Fan, 英伟达, 人形机器人