← 回總覽

具身智能来时路:谷歌 RT1、2,SayCan 作者 Ted Xiao 复盘机器人学习三大时代

📅 2026-05-10 14:03 机器之心 人工智能 2 分鐘 1655 字 評分: 88
具身智能 机器人学习 VLA RT-2 模仿学习
📌 一句话摘要 本文基于 Google DeepMind 前研究员 Ted Xiao 的深度访谈,系统复盘了具身智能领域从端到端学习、基础模型到规模化时代的十年演进历程,揭示了关键决策背后的思考与顿悟。 📝 详细摘要 本文整理自机器之心对前 Google DeepMind 研究员 Ted Xiao 的访谈,以亲历者视角回顾了具身智能领域的三个时代。存在性证明时代(2015-2021):团队通过 QT-Opt 和机械臂农场证明了端到端学习在真实机器人上的可行性,随后因强化学习遭遇收益递减而进入「Code Yellowish」状态,停发论文一年半专注收集 8.7 万条高质量专家演示数据,最终验

📌 一句话摘要

本文基于 Google DeepMind 前研究员 Ted Xiao 的深度访谈,系统复盘了具身智能领域从端到端学习、基础模型到规模化时代的十年演进历程,揭示了关键决策背后的思考与顿悟。

📝 详细摘要

本文整理自机器之心对前 Google DeepMind 研究员 Ted Xiao 的访谈,以亲历者视角回顾了具身智能领域的三个时代。存在性证明时代(2015-2021):团队通过 QT-Opt 和机械臂农场证明了端到端学习在真实机器人上的可行性,随后因强化学习遭遇收益递减而进入「Code Yellowish」状态,停发论文一年半专注收集 8.7 万条高质量专家演示数据,最终验证了大规模模仿学习的有效性。基础模型时代(2022-2024):SayCan 首次将语言模型与机器人结合,RT-1 将 Transformer 引入机器人策略,RT-2 将视觉语言模型直接作为策略骨干(VLA 路线),Open X-Embodiment 探索跨形态知识迁移。规模化时代(2025 至今):Gemini Robotics 系列将推理能力引入具身智能,动作迁移实现零样本跨平台泛化,数据维度从人工示范扩展到第一人称人类数据,商业化数据飞轮开始形成。文章还探讨了操控与运动控制的本质差异,以及机器人「ChatGPT 时刻」何时到来的判断。

💡 主要观点

- 具身智能经历了存在性证明、基础模型、规模化三个时代的演进。 从 QT-Opt 证明端到端学习可行,到 SayCan/RT 系列借力 LLM,再到 Gemini Robotics 全维度 Scaling,每个时代都有明确的核心命题和范式迁移。

大规模模仿学习被证明是比强化学习更有效的机器人学习路径。 团队在「Code Yellowish」期间停发论文一年半,专注收集 8.7 万条高质量专家数据,发现 BC 准确率可从 80% 提升至 95% 以上,打破了「BC 只能解决玩具问题」的学术铁律。
VLA 路线(视觉语言模型作为策略骨干)是具身智能的关键突破。 RT-2 将机器人动作预测重构为 VQA 任务,使 VLM 从外部工具变成核心引擎,涌现出此前未见过的推理能力和泛化行为,但团队承认本可早一年动手。
规模化时代呈现多维度并行爆发,操控与运动控制本质不同。 模型性能、评估体系、数据维度、商业化飞轮同步推进;操控需要示例学习和监督信号,运动控制则依赖零样本 Sim-to-Real 迁移和在线强化学习,两者融合是核心开放问题。

💬 文章金句

- RL is Painful。

  • BC 到 70%,RL 才能带你到 90%——这个信念几乎就是当时的铁律。
  • slowing down to speed up:放慢发 paper 的速度,还清技术债,反而为后面的爆发攒下了最稀缺的资产。
  • 一旦起点足够好,新想法的验证速度会指数级加快。这就是「临界质量」的魔力。
  • 操控更像是大脑皮层的工作,而运动控制更像是小脑或脊髓的工作。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:25 分钟

字数:6114

标签: 具身智能, 机器人学习, VLA, RT-2, 模仿学习

阅读完整文章

查看原文 → 發佈: 2026-05-10 14:03:00 收錄: 2026-05-10 20:00:15

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。