英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 上宣告 VLA 和遥操作范式终结,提出世界动作模型 WAM 和人类传感器数据作为具身智能新范式。
📝 详细摘要
本文是英伟达机器人研究负责人 Jim Fan 在红杉 AI Ascent 2026 上的演讲全文。Jim Fan 在演讲中系统性地宣告了两个旧范式的终结:VLA(视觉-语言-动作模型)和遥操作数据采集。他提出具身智能应复制大语言模型的成功路径,以「预测下一个物理世界状态」替代「预测下一个 token」,由此引出全新的世界动作模型 WAM。在数据策略上,他预言遥操作将在未来一到两年内被淘汰,取而代之的是人类第一视角视频和传感器数据穿戴设备。英伟达团队通过 EgoScale 项目首次发现了机器人灵巧性的神经 Scaling Law,并展示了 Dream Zero、Dream Dojo 等系列工作。Jim Fan 还提出了机器人科技树的三个终极成就:物理图灵测试(2-3 年内)、Physical API 和 Physical Auto Research,并预测 2040 年前有望全部实现。
💡 主要观点
- VLA 范式终结,世界动作模型 WAM 成为新预训练范式。 Jim Fan 认为 VLA 以语言为核心,在物理和动作方面表现不足。WAM 通过预测下一个物理世界状态进行预训练,再通过动作微调和强化学习校准,更符合机器人本质需求。
💬 文章金句
- VLA 已死,WAM 当立。
- 遥操已死,人类的传感器数据长存。
- 算力=环境=数据。
- 如果你相信机器人,机器人终将回应你的相信。
- 我们的这一代人,也许出生得太晚,没赶上探索地球,也出生得太早,还没赶上探索星辰,但我们出生得刚刚好,因为我们正好赶上,去解决机器人。
📊 文章信息
AI 初评:90
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:31 分钟
字数:7745
标签: 具身智能, 世界模型, VLA, WAM, 遥操作