英伟达科学家的 20 分钟演讲：机器人终局，2040 预言

📌 一句话摘要

英伟达科学家 Jim Fan 在红杉资本 AI Ascent 活动上提出机器人领域的「Great Parallel」战略，预言 2040 年将抵达机器人终局，并系统阐述了从 VLA 到 WAM 的模型范式转变、从 Teleop 到 Sensorized Human Data 的数据策略演进，以及算力即环境即数据的核心等式。

📝 详细摘要

本文是对英伟达资深科学家 Jim Fan 在红杉资本 AI Ascent 活动上 20 分钟演讲的深度解读。Jim Fan 将 LLM 过去六年的成功路径（预训练→微调对齐→强化学习推理）复制到机器人领域，提出「Great Parallel」战略。在模型层面，他宣告 VLA（视觉语言动作模型）时代终结，认为其「头重脚轻」——绝大多数参数服务于语言而非物理理解，转而提出 WAM（世界动作模型）新范式，以英伟达的 DreamZero 为代表，通过联合解码世界状态与动作实现零样本泛化。在数据层面，他批判遥操作（Teleop）的规模化瓶颈，提出 Sensorized Human Data 策略，以带手部追踪和语言标注的人类第一视角视频为核心，英伟达 EgoScale 已用 21，000 小时野外视频预训练加 50 小时高精度数据微调实现灵巧手端到端控制，并发现灵巧度的神经缩放律。在仿真环境方面，他提出 Real-to-Sim-to-Real 和 Dream Dojo 两阶段方案，将 iPhone 变为口袋世界扫描仪，用纯数据驱动的神经模拟器替代传统物理引擎，最终形成「算力 = 环境 = 数据」的战略等式。Jim Fan 将机器人终局定义为三重门：物理图灵测试（2-3 年内）、Physical API（无人工厂）、Physical Auto-Research（机器人自主设计下一代自己），并给出 95% 把握在 2040 年抵达终点的预言。

💡 主要观点

- 机器人领域正复制 LLM 的成功路径，Jim Fan 称之为「Great Parallel」战略。 三步走：用世界模型预训练预测下一个物理世界状态，用动作微调对齐到真实机器人关心的仿真空间，最后让强化学习跑完最后一英里。

VLA 模型范式存在根本缺陷，WAM（世界动作模型）是新的正确方向。 VLA 本质上是在 VLM 顶部嫁接动作头，绝大多数参数服务语言而非物理理解，导致「在错误的地方头重脚轻」。WAM 通过联合解码世界状态与动作，让视觉和动作重新成为一等公民，DreamZero 已实现零样本泛化。

遥操作数据采集无法规模化，Sensorized Human Data 是数据策略的未来。 Teleop 每台机器人每天有效产出仅约 3 小时，昂贵且侵入性强。以带手部追踪和密集语言标注的人类第一视角视频为核心的数据策略可扩展至千万小时，EgoScale 已验证其有效性，并发现灵巧度存在清晰的神经缩放律。

算力即环境即数据，仿真环境是机器人强化学习的关键瓶颈。 前沿 LLM 实验室拥有百万级编码环境做强化学习，机器人领域同样需要。英伟达通过 Real-to-Sim-to-Real（iPhone 扫描重建）和 Dream Dojo（纯数据驱动神经模拟器）两阶段方案，实现大规模并行训练环境。

Jim Fan 以 95% 把握预言 2040 年抵达机器人终局，分为三重门。 第一关物理图灵测试（2-3 年内），第二关 Physical API（机器人机群可被 API 编排，实现无人工厂），第三关 Physical Auto-Research（机器人自主设计下一代自己）。从 2012 年 AlexNet 到 2026 年用了 14 年，再加 14 年到 2040 年。

💬 文章金句

- 我有 95% 的把握，我们将在 2040 年到达机器人终局的终点。

VLA 极其擅长编码知识和理解名词，但在物理规律和执行动词方面就差远了，可以说是在错误的地方头重脚轻。
算力 = 环境 = 数据。
如果你笃信机器人学，机器人学亦将回馈于你。
我们这一代人，生不逢时，既错过了探索地球的黄金时代，又未能赶上遨游星辰的浩瀚征途，但我们又生逢其时，恰好处在解决机器人技术的这个时刻。

📊 文章信息

AI 初评：88

来源：十字路口Crossing

作者：十字路口Crossing

分类：人工智能

语言：中文

阅读时间：26 分钟

字数：6261

标签：具身智能, 英伟达, Jim Fan, WAM, 世界动作模型

阅读完整文章

英伟达科学家的 20 分钟演讲：机器人终局，2040 预言

🤖 問 AI