← 回總覽

VLA 死了,遥操也死了!英伟达机器人一号位说的

📅 2026-05-09 14:24 henry 人工智能 2 分鐘 1658 字 評分: 90
具身智能 世界模型 VLA WAM 遥操作
📌 一句话摘要 英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 上宣告 VLA 和遥操作范式终结,提出世界动作模型 WAM 和人类传感器数据作为具身智能新范式。 📝 详细摘要 本文是英伟达机器人研究负责人 Jim Fan 在红杉 AI Ascent 2026 上的演讲全文。Jim Fan 在演讲中系统性地宣告了两个旧范式的终结:VLA(视觉-语言-动作模型)和遥操作数据采集。他提出具身智能应复制大语言模型的成功路径,以「预测下一个物理世界状态」替代「预测下一个 token」,由此引出全新的世界动作模型 WAM。在数据策略上,他预言遥操作将在未来一到两年内被淘汰,取

📌 一句话摘要

英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 上宣告 VLA 和遥操作范式终结,提出世界动作模型 WAM 和人类传感器数据作为具身智能新范式。

📝 详细摘要

本文是英伟达机器人研究负责人 Jim Fan 在红杉 AI Ascent 2026 上的演讲全文。Jim Fan 在演讲中系统性地宣告了两个旧范式的终结:VLA(视觉-语言-动作模型)和遥操作数据采集。他提出具身智能应复制大语言模型的成功路径,以「预测下一个物理世界状态」替代「预测下一个 token」,由此引出全新的世界动作模型 WAM。在数据策略上,他预言遥操作将在未来一到两年内被淘汰,取而代之的是人类第一视角视频和传感器数据穿戴设备。英伟达团队通过 EgoScale 项目首次发现了机器人灵巧性的神经 Scaling Law,并展示了 Dream Zero、Dream Dojo 等系列工作。Jim Fan 还提出了机器人科技树的三个终极成就:物理图灵测试(2-3 年内)、Physical API 和 Physical Auto Research,并预测 2040 年前有望全部实现。

💡 主要观点

- VLA 范式终结,世界动作模型 WAM 成为新预训练范式。 Jim Fan 认为 VLA 以语言为核心,在物理和动作方面表现不足。WAM 通过预测下一个物理世界状态进行预训练,再通过动作微调和强化学习校准,更符合机器人本质需求。

遥操作数据采集将在未来一到两年内被淘汰。 遥操作数据产能受物理上限限制,一台机器人一天最多采集 24 小时数据,实际稳定采集仅 3 小时。人类传感器数据(第一视角视频、数据手套、外骨骼)将成为机器人的主要数据来源。
机器人领域首次发现神经 Scaling Law。 EgoScale 项目在 2.1 万小时人类第一视角视频上预训练,发现预训练时长与最优验证损失之间存在完美的对数线性关系,这是机器人灵巧性领域的首个 Scaling Law。
算力 = 环境 = 数据,形成自我强化的飞轮。 通过 Real→Sim→Real 和 Dream Dojo 神经模拟器,算力投入可以生成无限仿真环境,环境产生数据,数据又反过来定义下一轮算力投入,形成类似自动驾驶 FSD 的飞轮效应。
机器人科技树只剩三个终极成就,2040 年前有望全部解锁。 物理图灵测试(2-3 年内)、Physical API(机器人成为可编程基础设施)、Physical Auto Research(机器人自我设计优化制造),Jim Fan 有 95% 把握在 2040 年前实现。

💬 文章金句

- VLA 已死,WAM 当立。

  • 遥操已死,人类的传感器数据长存。
  • 算力=环境=数据。
  • 如果你相信机器人,机器人终将回应你的相信。
  • 我们的这一代人,也许出生得太晚,没赶上探索地球,也出生得太早,还没赶上探索星辰,但我们出生得刚刚好,因为我们正好赶上,去解决机器人。

📊 文章信息

AI 初评:90

来源:量子位

作者:henry

分类:人工智能

语言:中文

阅读时间:31 分钟

字数:7745

标签: 具身智能, 世界模型, VLA, WAM, 遥操作

阅读完整文章

查看原文 → 發佈: 2026-05-09 14:24:18 收錄: 2026-05-09 18:00:24

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。