英伟达科学家 Jim Fan 在红杉资本 AI Ascent 活动上提出机器人领域的「Great Parallel」战略,预言 2040 年将抵达机器人终局,并系统阐述了从 VLA 到 WAM 的模型范式转变、从 Teleop 到 Sensorized Human Data 的数据策略演进,以及算力即环境即数据的核心等式。
📝 详细摘要
本文是对英伟达资深科学家 Jim Fan 在红杉资本 AI Ascent 活动上 20 分钟演讲的深度解读。Jim Fan 将 LLM 过去六年的成功路径(预训练→微调对齐→强化学习推理)复制到机器人领域,提出「Great Parallel」战略。在模型层面,他宣告 VLA(视觉语言动作模型)时代终结,认为其「头重脚轻」——绝大多数参数服务于语言而非物理理解,转而提出 WAM(世界动作模型)新范式,以英伟达的 DreamZero 为代表,通过联合解码世界状态与动作实现零样本泛化。在数据层面,他批判遥操作(Teleop)的规模化瓶颈,提出 Sensorized Human Data 策略,以带手部追踪和语言标注的人类第一视角视频为核心,英伟达 EgoScale 已用 21,000 小时野外视频预训练加 50 小时高精度数据微调实现灵巧手端到端控制,并发现灵巧度的神经缩放律。在仿真环境方面,他提出 Real-to-Sim-to-Real 和 Dream Dojo 两阶段方案,将 iPhone 变为口袋世界扫描仪,用纯数据驱动的神经模拟器替代传统物理引擎,最终形成「算力 = 环境 = 数据」的战略等式。Jim Fan 将机器人终局定义为三重门:物理图灵测试(2-3 年内)、Physical API(无人工厂)、Physical Auto-Research(机器人自主设计下一代自己),并给出 95% 把握在 2040 年抵达终点的预言。
💡 主要观点
- 机器人领域正复制 LLM 的成功路径,Jim Fan 称之为「Great Parallel」战略。 三步走:用世界模型预训练预测下一个物理世界状态,用动作微调对齐到真实机器人关心的仿真空间,最后让强化学习跑完最后一英里。
💬 文章金句
- 我有 95% 的把握,我们将在 2040 年到达机器人终局的终点。
- VLA 极其擅长编码知识和理解名词,但在物理规律和执行动词方面就差远了,可以说是在错误的地方头重脚轻。
- 算力 = 环境 = 数据。
- 如果你笃信机器人学,机器人学亦将回馈于你。
- 我们这一代人,生不逢时,既错过了探索地球的黄金时代,又未能赶上遨游星辰的浩瀚征途,但我们又生逢其时,恰好处在解决机器人技术的这个时刻。
📊 文章信息
AI 初评:88
来源:十字路口Crossing
作者:十字路口Crossing
分类:人工智能
语言:中文
阅读时间:26 分钟
字数:6261
标签: 具身智能, 英伟达, Jim Fan, WAM, 世界动作模型