具身智能来时路：谷歌 RT1、2，SayCan 作者 Ted Xiao 复盘机器人学习三大时代

📌 一句话摘要

本文基于 Google DeepMind 前研究员 Ted Xiao 的深度访谈，系统复盘了具身智能领域从端到端学习、基础模型到规模化时代的十年演进历程，揭示了关键决策背后的思考与顿悟。

📝 详细摘要

本文整理自机器之心对前 Google DeepMind 研究员 Ted Xiao 的访谈，以亲历者视角回顾了具身智能领域的三个时代。存在性证明时代（2015-2021）：团队通过 QT-Opt 和机械臂农场证明了端到端学习在真实机器人上的可行性，随后因强化学习遭遇收益递减而进入「Code Yellowish」状态，停发论文一年半专注收集 8.7 万条高质量专家演示数据，最终验证了大规模模仿学习的有效性。基础模型时代（2022-2024）：SayCan 首次将语言模型与机器人结合，RT-1 将 Transformer 引入机器人策略，RT-2 将视觉语言模型直接作为策略骨干（VLA 路线），Open X-Embodiment 探索跨形态知识迁移。规模化时代（2025 至今）：Gemini Robotics 系列将推理能力引入具身智能，动作迁移实现零样本跨平台泛化，数据维度从人工示范扩展到第一人称人类数据，商业化数据飞轮开始形成。文章还探讨了操控与运动控制的本质差异，以及机器人「ChatGPT 时刻」何时到来的判断。

💡 主要观点

- 具身智能经历了存在性证明、基础模型、规模化三个时代的演进。 从 QT-Opt 证明端到端学习可行，到 SayCan/RT 系列借力 LLM，再到 Gemini Robotics 全维度 Scaling，每个时代都有明确的核心命题和范式迁移。

大规模模仿学习被证明是比强化学习更有效的机器人学习路径。 团队在「Code Yellowish」期间停发论文一年半，专注收集 8.7 万条高质量专家数据，发现 BC 准确率可从 80% 提升至 95% 以上，打破了「BC 只能解决玩具问题」的学术铁律。

VLA 路线（视觉语言模型作为策略骨干）是具身智能的关键突破。 RT-2 将机器人动作预测重构为 VQA 任务，使 VLM 从外部工具变成核心引擎，涌现出此前未见过的推理能力和泛化行为，但团队承认本可早一年动手。

规模化时代呈现多维度并行爆发，操控与运动控制本质不同。 模型性能、评估体系、数据维度、商业化飞轮同步推进；操控需要示例学习和监督信号，运动控制则依赖零样本 Sim-to-Real 迁移和在线强化学习，两者融合是核心开放问题。

💬 文章金句

- RL is Painful。

BC 到 70%，RL 才能带你到 90%——这个信念几乎就是当时的铁律。
slowing down to speed up：放慢发 paper 的速度，还清技术债，反而为后面的爆发攒下了最稀缺的资产。
一旦起点足够好，新想法的验证速度会指数级加快。这就是「临界质量」的魔力。
操控更像是大脑皮层的工作，而运动控制更像是小脑或脊髓的工作。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：25 分钟

字数：6114

标签：具身智能, 机器人学习, VLA, RT-2, 模仿学习

阅读完整文章

具身智能来时路：谷歌 RT1、2，SayCan 作者 Ted Xiao 复盘机器人学习三大时代

🤖 問 AI