VLA 死了，遥操也死了！英伟达机器人一号位说的

📌 一句话摘要

英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 上宣告 VLA 和遥操作范式终结，提出世界动作模型 WAM 和人类传感器数据作为具身智能新范式。

📝 详细摘要

本文是英伟达机器人研究负责人 Jim Fan 在红杉 AI Ascent 2026 上的演讲全文。Jim Fan 在演讲中系统性地宣告了两个旧范式的终结：VLA（视觉-语言-动作模型）和遥操作数据采集。他提出具身智能应复制大语言模型的成功路径，以「预测下一个物理世界状态」替代「预测下一个 token」，由此引出全新的世界动作模型 WAM。在数据策略上，他预言遥操作将在未来一到两年内被淘汰，取而代之的是人类第一视角视频和传感器数据穿戴设备。英伟达团队通过 EgoScale 项目首次发现了机器人灵巧性的神经 Scaling Law，并展示了 Dream Zero、Dream Dojo 等系列工作。Jim Fan 还提出了机器人科技树的三个终极成就：物理图灵测试（2-3 年内）、Physical API 和 Physical Auto Research，并预测 2040 年前有望全部实现。

💡 主要观点

- VLA 范式终结，世界动作模型 WAM 成为新预训练范式。 Jim Fan 认为 VLA 以语言为核心，在物理和动作方面表现不足。WAM 通过预测下一个物理世界状态进行预训练，再通过动作微调和强化学习校准，更符合机器人本质需求。

遥操作数据采集将在未来一到两年内被淘汰。 遥操作数据产能受物理上限限制，一台机器人一天最多采集 24 小时数据，实际稳定采集仅 3 小时。人类传感器数据（第一视角视频、数据手套、外骨骼）将成为机器人的主要数据来源。

机器人领域首次发现神经 Scaling Law。 EgoScale 项目在 2.1 万小时人类第一视角视频上预训练，发现预训练时长与最优验证损失之间存在完美的对数线性关系，这是机器人灵巧性领域的首个 Scaling Law。

算力 = 环境 = 数据，形成自我强化的飞轮。 通过 Real→Sim→Real 和 Dream Dojo 神经模拟器，算力投入可以生成无限仿真环境，环境产生数据，数据又反过来定义下一轮算力投入，形成类似自动驾驶 FSD 的飞轮效应。

机器人科技树只剩三个终极成就，2040 年前有望全部解锁。 物理图灵测试（2-3 年内）、Physical API（机器人成为可编程基础设施）、Physical Auto Research（机器人自我设计优化制造），Jim Fan 有 95% 把握在 2040 年前实现。

💬 文章金句

- VLA 已死，WAM 当立。

遥操已死，人类的传感器数据长存。
算力=环境=数据。
如果你相信机器人，机器人终将回应你的相信。
我们的这一代人，也许出生得太晚，没赶上探索地球，也出生得太早，还没赶上探索星辰，但我们出生得刚刚好，因为我们正好赶上，去解决机器人。

📊 文章信息

AI 初评：90

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：31 分钟

字数：7745

标签：具身智能, 世界模型, VLA, WAM, 遥操作

阅读完整文章

VLA 死了，遥操也死了！英伟达机器人一号位说的

🤖 問 AI