一个大脑控制所有机器人，真的可能吗？特斯拉、Skild AI、Agility 激辩人形机器人的量产路线｜GTC 2026

黄仁勋这两年的GTC 主题演讲，几乎每次都会把机器人和 Physical AI 拉出来讲一遍。过去大家听这些内容，总还有点“未来已来但还没落地”的距离感：模型很强，仿真很热闹，视频也很惊艳，但机器人到底什么时候才能真正离开实验室，进入工厂、仓库、家庭和各种复杂现场，始终还是个悬而未决的问题。

到了 GTC 2026，这件事的气氛明显变了。

今年英伟达安排的这场圆桌，题目就很直接：《From Concept to Production: Humanoid Robotics at Scale》。翻成大白话就是，人形机器人这件事，讨论重点已经不是“能不能做出来”，而是“怎么把它真正做成产品、铺到现实世界里去”。

这场对话请来的也都不是来聊概念的人。主持人是英伟达机器人与边缘计算生态负责人 Amit Goel；嘉宾则包括特斯拉 AI 软件副总裁 Ashok Elluswamy、Hexagon Robotics CEO Arnaud Robert、Agility CTO Pras Velagapudi、Skild AI 联合创始人兼 CEO Deepak Pathak，以及斯坦福助理教授、Physical Intelligence 联合创始人 Chelsea Finn。

!Image 1

几家公司路线各不相同，但都已经踩进了同一个现实问题：机器人不是缺一个漂亮 demo，而是缺一整套能穿过数据稀缺、仿真误差、控制延迟、安全约束和部署成本的量产方法。

也正因为如此，这场圆桌的有趣之处，并不在于谁又展示了一个更像人的机器人，而在于这些一线公司第一次相对坦率地把分歧摆到了台面上。

比如，真实世界数据到底是不是唯一答案？仿真在今天到底是训练主力，还是主要用于测试和验证？一个通用大脑控制多种机器人，这件事究竟是在发生，还是仍然只是一个迷人的口号？再往下走，端到端模型、分层架构、世界模型、控制系统、Agent 式编排，到底哪条路线更有可能先把机器人送进真实生产环境？

特斯拉给出的答案，显然更接近它在自动驾驶上走过的那条路：端到端、统一模型、视频输入、实时控制，所有层级的信息最好都在同一个决策系统里完成。Skild AI 和 Physical Intelligence 则更强调“通用大脑”的可能性，希望通过跨具身数据、仿真、人类视频和大规模预训练，把不同机器人平台纳入同一个学习框架。Agility 和 Hexagon 的说法则更务实：到了真实部署阶段，模块化、分层控制、工程技能、环境建模和 orchestration 平台，往往比一个抽象意义上的“万能大脑”更重要。

说白了，机器人行业现在已经走到这样一个阶段：最难的问题不再只是“让机器人动起来”，而是“让它稳定地、可靠地、持续地干活”。

下面，就让我们回到这场 GTC 2026 的圆桌现场，看看这些站在量产前线的人，究竟是怎么谈数据、仿真、模型、控制和人形机器人的未来的。

!Image 2

从实验室到现实世界，人形机器人终于走到量产门口

Amit Goel：欢迎大家来到 GTC，也感谢各位参加今天这场圆桌。

很难相信，过去十年我们每次来到 GTC，谈机器人时几乎总绕不开那几件事：怎么训练能够具身化的多模态 AI 模型；怎么用仿真弥合数字世界和现实世界之间的鸿沟；怎么把 AI 推理真正跑在边缘端，让机器人变得可行。

但现在，一切都变了。

今天我们已经不再只是讨论这些问题本身。我们走到了一个临界点：机器人正在离开实验室，进入那个混乱、复杂、充满不确定性的物理世界。

所以今天我特别荣幸，能够邀请到这样一组嘉宾。他们可以说正是这场变革的架构师。从实验室走向现实世界绝不会轻松，但台上的各位，正在亲手把这件事一步步变成现实。

那我们就直接开始吧。先请各位简单介绍一下自己。Pras，要不先从你开始？ Pras Velagapudi：好的。我是 Agility Robotics 的 CTO Pras Velagapudi。

在 Agility，我们做的是 Digit——一款为工作而生的人形机器人。当然，如果按 Jensen 今天 keynote 里的说法，它 apparently 也会打鼓。

现在，Digit 已经部署在不少真实场景里了，包括 Amazon、GXO、Schaeffler。最近我们也刚刚宣布和 Toyota 合作。它们已经出现在物流设施和制造现场里，开始承担大宗物料搬运这类工作。

所以对我们来说，现在最让人兴奋的一点是：机器人——尤其是人形机器人——终于不再只是“未来可能做到什么”的想象，而是已经进入真实世界，开始被按现实标准来评估：它到底已经能做什么。

我们的下一步，是把下一代机器人做出来，并把完整的协作安全能力也放进去。这样一来，人类和机器人就不需要再被物理隔开，而是能在同一个空间里直接协同工作。 Amit Goel：太好了。Ashok？ Ashok Elluswamy：谢谢，Pras。大家好，我是 Ashok Elluswamy，负责特斯拉的 AI 团队。

在特斯拉，我们正在构建的是一种我们称之为Physical AGI的系统。在这个设想里，同一个模型既可以驾驶汽车，也可以驱动人形机器人，甚至还能操作电脑。

它本质上是一套端到端系统：输入是视频，输出是实时控制动作。

特斯拉的自动驾驶软件已经正式交付很多年了。而从今年开始，我们也已经在美国部分地区运行起了无人监督的车队。

对我们来说，Optimus 其实就是这套能力非常自然的一次延伸。因为自动驾驶本来就要求你从多路摄像头输入里理解世界，再输出可以实时执行的动作，而且这些动作必须足够准确、足够可扩展——因为一旦出错，后果可能就是灾难性的。

这套安全文化，其实也会很自然地迁移到 Optimus 上。

等会儿我们可以继续展开聊，但我确实非常期待这件事继续往前走：同样的 Physical AGI，落在不同具身形态里，在车上工作，也在机器人身上工作。 Amit Goel：太棒了。Chelsea。 Chelsea Finn：大家好，我是斯坦福大学助理教授 Chelsea Finn，同时也是 Physical Intelligence 的联合创始人。

在 Physical Intelligence，我们相信，机器人之所以还没真正进入我们的日常生活，最大的瓶颈其实不是“身体”，而是“智能”。

我们想做的是一个“大脑”，或者说一个模型：它能够控制任何机器人，去完成任何任务。

我们觉得，与其围绕一个个具体应用逐点突破，不如直接去做这种通用能力。某种意义上，这条路反而可能更直接，也更容易真正走通。

和 Ashok 刚才提到的方向有些相似，我们也非常关心如何把这种能力推广到不同的机器人平台上。因为我们相信，未来不会只有一种机器人形态，而是会有大量不同的具身形式共存。

真正重要的，是把这些机器人在不同环境中积累下来的数据和经验汇到一起，再反过来提升所有机器人的智能。 Amit Goel：Arnaud。 Arnaud Robert：大家好，我是 Hexagon Robotics 的 Arnaud Robert。

在 Hexagon Robotics，我们做的是一种多用途的人形机器人。除了操作能力之外，它还能做巡检、reality capture 这类任务。

它背后依赖的是一整套非常复杂的传感器系统，我想这也会是今天讨论里一个挺有意思的话题。

我们的第一款产品 Aeon 在 2025 年 6 月发布，目前已经和 Schaeffler、Pilatus——一家高端飞机制造商——以及 BMW 展开了试点合作。 Amit Goel：Deepak。 Deepak Pathak：大家好，我是 Skild AI 的联合创始人兼 CEO Deepak Pathak，同时也是卡内基梅隆大学的教授。

在 Skild，我们做的是机器人的通用大脑。 任何机器人，任何任务，一个大脑。再说一遍：任何机器人，任何任务，一个大脑。

无论是家用场景里的人形机器人，工厂流水线上的机械臂，还是在社区里送包裹的四足机器人，我们都希望用同一个底层大脑去驱动它们。

我们之所以一定要走得这么“通用”，原因其实很简单：机器人本质上是个数据问题。

和语言、视觉不同，机器人领域根本没有现成的大规模数据，足够用来训练这类模型。所以我们必须跨具身、跨任务、跨场景，把数据飞轮真正转起来。

只要任何一种具身形态，在任何一个应用里，做出了任何一个动作，这份数据理论上都应该能反过来提升后台那个通用大脑。

某种程度上，这和特斯拉当年做自动驾驶有点像，所以我们也很受启发。但机器人其实更难，因为你得把这件事推广到完全不同的场景、完全不同的系统里，才有可能真正做出规模。

这就是我们在努力的方向。

!Image 3

真实数据、远程操作、人类视频，机器人究竟该靠什么喂大

Amit Goel：好，进入今天的第一个核心话题：数据。

正如 Deepak 刚才说的，到了这个阶段，大家其实已经越来越相信，只要数据足够，模型就能学到很多东西。但 Physical AI 和机器人一直有个绕不过去的难题：这些数据到底从哪来？

台上的各家公司，也都在用非常不同的方法收集训练数据。所以我想先从 Pras 开始。

你们已经在客户现场部署机器人一段时间了。那么，对 Agility 来说，真实世界里最有价值的数据采集策略是什么？还有，在远程操作和机器人自主采集之间，你们是怎么权衡的？ Pras Velagapudi：这个问题挺有意思。因为一旦你真的进了客户现场，就会发现，很多你以为理所当然的数据，其实并没有那么容易拿到。

尤其是在有大量合规要求的环境里，更是如此。

我觉得可以把机器人数据大致想成一个“金字塔”。

最顶层，是你直接远程操作机器人，让它在真实环境里完成任务，也就是你亲自控制机器人去做事。再往下一层，比如你可以用某种代理设备去模仿机器人的动作，采集这类数据。再往下，是人类第一视角数据，比如一个人戴着 egocentric camera 去完成任务。再下面，可能就是更一般意义上的视频数据，或者被动采集的数据。

之所以说它是个金字塔，是因为越往上，数据越贵、越难拿，但往往也越贴近你真正想解决的问题；越往下，数据量越大、越容易收集，但和最终任务之间的距离也更远。

而一旦你进入客户环境，金字塔最顶层的数据反而往往最难拿。因为这意味着你必须进入非常具体的生产环境里去采集数据，而且还得确保这些数据经过匿名化、脱敏，满足各种合规要求。

所以我们的实际做法是：顶层数据会用，但会尽量克制，只把它用在那些特别关键、特别具体的任务上。

与此同时，我们会尽可能利用已经预训练好的模型，把其他机构在“金字塔下层”积累的数据当成起点，再往上叠。

至于我们从机器人本身采回来的数据，很多时候其实更偏“运营数据”，而不是完整的、可直接训练的任务数据。再加上在客户现场，你往往只能拿到部分可观测的信息，因为这里面还牵扯到 GDPR 之类的隐私和监管问题——毕竟，说到底，你不能把一个会走路的监控系统随便丢进某个设施里。

所以这件事更像是一种混合策略，而且我们现在也还在不断迭代，尤其是在数据湖这件事上。 Amit Goel：也就是说，部署本身并不天然等于“拿到了有用的数据”，对吧？你还是得把整个链条都搭起来。 Pras Velagapudi：对，部署只是第一步。

更重要的是你得把这些数据整理对、筛选对。因为要拿到“大量数据”其实不难，难的是别拿回来一大堆对你完全没用的数据。 Amit Goel：Chelsea，你们 Physical Intelligence 一直在做通用机器人，数据路线跟别家也不太一样。你们搭了很多 leader-follower 风格的机械臂系统，还在 Airbnb 这类真实场景里收数据。

所以我也很想听听：你们是怎么靠数据策略去跨不同具身形态、跨不同任务做泛化的？ Chelsea Finn：我觉得，其他 AI 领域过去这些年的进展，其实已经给了我们一个很清楚的启发： 真正最有效的数据，通常还是那些最接近你部署分布的真实数据。

所以从这个角度看，Pras 刚才讲的那个“数据金字塔”，虽然不是他原创的，但我觉得它某种程度上是有点误导性的。说得直白一点，它有点像营养学里的食物金字塔——听起来很合理，但不一定真是最优答案。

因为对我们来说，真正想要的是大量真实机器人在真实世界里的数据。只有这样，你才能覆盖那些机器人未来真正会遇到的场景。

所以我们押注的方向，就是尽可能在真实世界、用真实机器人，大规模收真实数据。

最近我们在一些研究里也发现了一件很有意思的事：如果你已经有了来自多种机器人具身形态的大量数据，那么你从人类视频里学到的迁移效果，反而会更好。

这件事一开始听起来有点反直觉。很多人原本以为，只要把人类视频尽量对齐到人形机器人，迁移效果应该就最好。

但我们现在看到的情况更像是：当你的机器人数据本身足够多样时，模型更容易把“人类数据”和“机器人数据”之间的点连起来。

换句话说，具身形态越丰富，模型越能理解不同身体、不同动作方式之间的映射关系，也就越能真正吃下人类视频这些看起来“离任务更远”的数据源。

所以我们不是只用机器人真实数据，我们也会把其他数据源一起纳进来，尤其是网络数据、人类视频等等。目标是训练出一个真正有泛化能力的模型：它能跨具身形态、跨环境、跨任务工作。 Amit Goel：这点很有意思。也就是说，来自不同机器人形态的数据，反而会提升模型理解人类数据的能力。

这确实挺让人兴奋的。 Amit Goel：Ashok，特斯拉这边在 Full Self-Driving 上已经积累了几百万英里的经验。那这套自动驾驶里学到的东西，具体是怎么影响你们 Optimus 的数据策略的？ Ashok Elluswamy：影响非常大。

说到底，数据本来就是特斯拉自动驾驶项目最核心的优势之一。我们基本上每天都在围着数据转：怎么管理数据流、什么数据真正有价值、什么数据只是噪声。

因为大家都知道，不是所有数据都一样有用。

比如做自动驾驶时，你希望车学会的是“像一个专业司机那样开车”，而不是像赛车手那样开，或者像那种把开车当刺激项目的人那样去开。

这套经验，放到人形机器人上其实也完全成立。

我们现在已经非常清楚，什么样的数据会真正让系统变好，需要多少数据，哪些数据值得收，哪些数据只是看上去很多但其实没什么训练价值。这些东西都可以相当直接地迁移到人形机器人上。

当然，汽车和机器人的现实情况还是不一样。汽车这边我们已经有一个非常巨大的车队，随时都能提取数据。问题反而是，里面绝大多数都是“无聊数据”，并不一定真的有用。

所以关键不是“你有没有海量数据”，而是你能不能准确找到那些真正有学习价值的数据。

一旦你知道该找什么，事情就会变得完全不一样。因为这时候，你需要的数据量未必有想象中那么夸张，没必要把整个车队产出的所有数据都喂进去。

比如说，整个车队一天轻轻松松就能产出相当于500 年驾驶经验的数据量。任何一个人类司机都不可能亲眼见过这么多数据，我们训练模型时也根本不会把这些全都用上。

真正拿来训练的，只是其中很小的一部分。但因为我们已经把数据筛选、抽取、标注这套方法论摸得很清楚，所以它能非常顺滑地迁移到人形机器人上。

再说回人形机器人本身。因为我们做的就是 humanoid，而不是别的形态，这件事本身就让“向人学”变得简单很多。

很多动作，你只要让机器人看着人怎么做，再去模仿，起点就已经很高了。而且特斯拉本身还有工厂，里面有几十万员工每天都在做各种复杂的物理任务，制造汽车、操作设备、完成一整套工业流程。

这本身就是一个非常重要的 bootstrap。再加上从其他人类视频、各种摄像头、互联网视频数据集中继续学习，这些都会成为非常丰富的数据来源。

当然，最后真正关键的还是：你到底怎么用这些数据。

你在这些数据上监督什么？这些监督信号是不是真的对最终任务有帮助？你的评估体系怎么设计？

我觉得这些问题，比“原始数据总量到底有多大”更重要。 Amit Goel：所以你们在 Full Self-Driving 上建立起来的不只是数据本身，还有整条 data pipeline 和先验判断，这些都会直接帮助 Optimus。 Ashok Elluswamy：对，完全是这样。

原始数据本身当然有用。但更有价值的，其实是我们已经建立起来的那整套方法：怎么过滤数据，怎么判断哪些数据是“好数据”，哪些是“坏数据”。这套东西，对 Optimus 帮助非常大。 Amit Goel：Arnaud，Hexagon 很长一段时间都在做现实世界的数据采集，本身就在创造和积累数据。你们的 reality capture 和激光扫描技术，能拿到精度非常高的环境信息。

所以我很好奇，这件事具体是怎么改变你们训练机器人 AI 的方式的？ Arnaud Robert：我觉得前面提到的这个“数据金字塔”，某种程度上确实是大家都在追求的方向：每一层都尽可能拿到更多数据，而且每一层都尽可能把数据整理得更好。

但我们在现实环境里做机器人时，一个特别深的感受是：光理解任务本身还不够，你还得理解任务所处的整个环境。

所以我们不仅把 reality capture 传感器装在机器人身上，也会把 Hexagon 的环境采集技术部署在机器人外部。

对我们来说，一旦要记录一个任务，就不能只记录“机器人怎么做这个任务”，而是要尽量把它所处环境的完整 360 度上下文也一起记录下来。

因为我们发现，这些环境信息本身，往往非常关键。

举个例子，某些设备可能会产生光干扰。如果你能在环境数据里识别出这一点，你就会知道这只是干扰项，应该从训练里剔掉，而不是把它误当成任务本身的一部分。

再比如，Aeon 是一台机动性很强的机器人，它是带轮子的。当它在工厂里做扫描检测时，现场会发生很多变化：可能有人从它面前走过，可能同一个零件这次摆得稍微偏一点，下次又换了个位置。

这些东西如果你不理解，就很难真正判断什么才是“任务本身”，什么只是环境噪声，什么又是必须纳入训练、否则任务根本没法稳定完成的部分。

所以我们现在确实花了很多精力在这件事上：不是只采“动作数据”，而是尽量把任务和环境一起建模。 Amit Goel：太好了。 Amit Goel：Deepak，你一直在强调机器人领域最大的难题就是数据稀缺。Skild 也提到过会大量使用人类视频、远程操作以及仿真。

但你们做的是一个通用模型，要覆盖不同任务、不同具身形态、不同环境。在这种目标下，你们怎么处理数据规模和数据多样性的限制？ Deepak Pathak：这是个很好的问题。

我觉得首先可以回头看看，过去十年 AI 到底给了我们什么教训。

在我看来，真正重要的其实就两条。

第一条，是你得有你真正关心的数据。比如做语言模型，你就得有语言数据。你不可能拿一堆非语言数据，最后神奇地学出语言能力。

第二条，而且我觉得更重要的一条，是规模。

哪怕是 GPT-3，之所以成为 GPT-3，也不是因为有某种神秘魔法，而是因为它跨过了一个数量级门槛：30 万亿到 100 万亿 token的量级。那已经是数十万亿、上百亿亿级别的样本规模了。

所以我当然同意在座各位说的，真实世界数据非常重要。但我觉得很多人会忽略另一件事：规模同样重要，而且是压倒性的重要。

再举一个已经成功的例子，就是特斯拉自动驾驶。你们用的就是现实里的驾驶数据，这当然是真实数据。但它之所以能起飞，还有一个前提：你们先卖出了足够多的车，先拥有了那个规模。

所以，对机器人来说，真正的问题不是“真实数据重不重要”——这件事根本没有争议。问题是：我们怎么走到那一步？

因为机器人现在其实卡在一个很典型的“鸡生蛋、蛋生鸡”困境里。你想拿到大规模真实世界数据，前提是机器人已经能在外面干活了；可你想让机器人先部署出去干活，又需要先有足够数据把它练出来。

所以在我们这里，我们会把 pre-training 和 post-training 明确拆开来想。

在 pre-training 阶段，我们很清楚现在还拿不到足够规模的真实机器人数据。那能不能从别的来源先借力？

我们现在主要用两种来源：人类视频和仿真。

人类视频里，人是在行动的，所以你能从中学到动作和运动。但它的问题是，它不给你不同具身形态的多样性。

或者换个说法，它不能直接告诉你：当身体结构不同时，你该怎么把看到的动作映射回自己身上。

比如一个小孩看大人动作时，两者身体比例其实完全不一样。但小孩照样能通过观察大人、再自己不断尝试和练习，慢慢学会。

我们认为，这中间缺的那一层知识，可以由仿真来补。

所以我们会把人类视频和仿真一起用，先预训练出一个通用模型，然后再用远程操作或者真实世界数据去做 fine-tuning。

某种意义上，这和 Chelsea 刚才说的有点像，只是方向稍微反过来。她强调的是有了丰富机器人数据之后，人类数据会更好用；而我们更强调的是，在真实世界规模还没起来之前，得先靠人类视频和仿真把“规模”和“多样性”这两件事补上。

这样做的目的，是让我们能更快把模型部署到更多具身形态和更多场景里。而一旦部署出去，那个通用大脑就会继续因为真实世界数据而变得更强。 Amit Goel：听大家这么一轮讲下来，我感觉我们大概很快就会把机器人领域的数据缺口补上了：现实世界数据、远程操作、环境扫描、实际部署、再加上仿真，大家正在把这些东西一层层拼起来。

!Image 4

仿真越来越强了，但它仍然不是现实世界

Amit Goel：这也正好引出今天的第二个主题。

我们现在已经看到越来越多关于数据生成、仿真、策略评估和测试的新方法在出现。所以我想接着问问各位：在你们构建通用智能的路线里，仿真到底扮演什么角色？

Ashok，先从你开始吧。你们最近发布了 Digital Dreams 的工作。能不能具体讲讲，在你看来，那种基于神经网络的物理引擎、用来生成 Optimus 合成训练数据的方法，和 Isaac Lab、MuJoCo、Newton 这类传统物理仿真相比，到底有什么不同？ Ashok Elluswamy：我觉得，我们其实会针对不同目的使用不同类型的仿真器。

在自动驾驶这边，问题相对简单一些。因为现实里已经有数百万辆车在路上跑，而且还有人类驾驶产生的精确控制数据可以直接拿来学。

但人形机器人不是这样。你没有一个现成的外骨骼系统，可以让人类无缝钻进去，然后完整、准确地把整套状态和控制都映射出来。那件事既笨重又麻烦，而且很难精确对齐到现实世界。

所以在机器人这边，我们的思路通常是：先从人类做过的动作出发，再从那个初始状态向外模拟，看看“如果从这里开始，接下来还可能发生什么”。

也就是说，你需要一种可控的仿真器——你输入动作，世界会按这个动作向前演化。但这里真正重要的是：这个仿真器必须在物理上足够准确。

特别是那些基于神经网络的仿真器，它们很容易出现一个问题：如果你只在“好结果”的数据上训练它，它最后几乎总会想象出“好结果”。不管你输入什么动作，它都倾向于告诉你，一切都会顺利发生。

但现实世界不是这样的。所以你必须确保仿真真的贴近现实，而不是自己越跑越嗨，最后无论什么动作都给你一个乐观结局。

这也是为什么拥有一批真实世界里的机器人非常重要。只有当你有足够多机器人在现实里真正去练习任务，你才能不断拿这些数据回来，把仿真重新锚定在现实上，把 sim gap 慢慢补起来。

否则的话，仿真器就可能彻底失控，告诉你“这也行，那也行”，但真到了现实里，机器人却一脚踩进坏状态里出不来。

所以对我们来说，真实车队和真实机器人 fleet 的价值，不只是直接产数据，也是在不断给仿真兜底，让它别脱离现实。 Amit Goel：很好。 Amit Goel：Chelsea，你们非常强调真实世界数据。那在这种前提下，仿真在 Physical Intelligence 的体系里到底扮演什么角色？你们会怎么用它，来把模型真正带到现实世界里？ Chelsea Finn：说实话，我们对仿真的使用，可能比很多人想象中要少。

也正因为我们把重心放在真实数据上，所以仿真并不是我们主要的数据来源。但它在别的地方依然非常有价值。

比如系统测试、策略评估、验证不同算法思路，这些场景里仿真都很好用。尤其是评估，我觉得这是仿真最有潜力、也最重要的用途之一。

因为随着策略越来越通用，你就必须在越来越多样的场景里去测试它。而如果每一次测试都要在现实世界里完成，成本会越来越高，难度也会越来越大。

所以在我看来，仿真最令人兴奋的地方之一，就是它能让你把很多分布外环境、很多复杂边界条件，先在数字世界里过一遍，而不必每次都真的把机器人推进现实环境去试错。 Amit Goel：也就是说，仿真更像是你们探索那些分布外环境、验证多样场景的一块测试场，而不是训练主战场。 Amit Goel：Deepak，你们一直在同时使用多种模态的数据。那在 Skild 这边，你们有没有摸索出一个比较清楚的平衡点：到底什么情况下该更多依赖合成数据，什么情况下该更多依赖真实世界数据？

还有，这个比例会不会随着任务不同而变化？比如走路和操作任务，粗颗粒操作和高灵巧度操作，这些场景的“配方”是不是其实完全不同？ Deepak Pathak：对，这个问题非常关键。

我觉得，首先还是要先问清楚：我们现在谈的是 pre-training，还是 post-training？因为这两个阶段对仿真的需求完全不一样。

比如在 post-training 里，仿真当然是更理想的。如果一项任务能直接靠仿真完成微调，那当然最好，因为你就不用真的跑到现实世界里一遍一遍收数据。

我们这次在英伟达展台上就有一个 live demo，机器人在组装 GPU 服务器。这是一个非常复杂的任务。我们既可以用真实数据做 fine-tuning，也可以在某些情况下，几乎只用仿真数据把它做出来。

但问题在于，仿真也有它的边界。最大的限制，通常出现在那些特别复杂、特别难建模的资产和环境上。

我过去八年一直在用 NVIDIA Isaac、Isaac Gym，甚至更早期的东西。它们确实在不断进步，几乎每过几个月你都会感觉 fidelity 和效率都在提高。

但要把所有东西都同时模拟得足够真实、又足够快，直到今天依然很难。一旦这个条件达不到，现实世界数据就没有替代品。

所以我们的原则大概是这样：如果能用仿真，我们一定会混合用仿真。无论最终应用是什么，仿真数据我们都会加进去。

但在 pre-training 阶段，仿真的重要性还要更高，因为那个阶段的核心任务是拿经验、拿规模。而这两件事，仿真最擅长。

像 locomotion 和 mobility 这类任务，在我们这里几乎完全是仿真主导，真实数据很少，甚至几乎没有。但一旦到了 manipulation，尤其是跟复杂资产、精细交互相关的操作任务，真实世界数据的重要性就会明显上升。

当然，随着仿真能力不断提升，这个比例也在变化。我们每天都能看到它变得更有帮助一些。

所以答案其实不是一个固定比例，而是要看任务类型，也要看你现在处在训练流程的哪一个阶段。pre-training 是一种思路，post-training 又是另一种思路。 Amit Goel：你刚才提到一个问题：传统仿真器在 fidelity 上仍然不够。而现在又出现了神经仿真这一类东西，也就是从现实世界里学出一个世界基础模型，比如我们在做的 Cosmos。

这会不会帮助你们缓解“仿真不够真实”这个问题？ Deepak Pathak：会，但要分开看。

我觉得这里面其实有两种“真实感”。

第一种，是物理层面的真实感。比如某个复杂物体会不会弯、会不会变形、接触时到底怎么受力，这些都属于物理 realism。

第二种，是感知层面的真实感。也就是你看到的画面、纹理、光照、视觉输入，像不像现实世界。

如果说感知这件事，我觉得因为有了 Cosmos 这类模型，这个 gap 已经快被补上了。至少在 perception 这一层，进展非常明显，也非常有帮助。

但如果说到物理这一层，我觉得我们还在路上。这部分仍然有很多工作要做。

实际上，我们现在也在和英伟达一起合作，去写新的 solver，希望把一些东西模拟得更快、更准。所以我会说：感知这边，神经仿真已经非常有用了；物理这边，还远没有结束。 Amit Goel：Arnaud，你们手里有客户环境最精确的数字孪生，这意味着你们本来就能在非常真实的环境副本里做大量学习和仿真。

能不能具体讲讲，你们是怎么把 digital twin 纳入仿真策略里的？ Arnaud Robert：可以。

其实除了你刚才说的那些用途之外，我们自己最看重的，主要有两件事。

第一件事，就是大家都在说的sim-to-real gap。仿真当然越来越好了，但 gap 依然存在。

而要解决这个 gap，唯一的方法其实不是假装它不存在，而是先把它测出来。这正是数字孪生特别有价值的地方。

因为你可以非常清楚地看到：理论上，它本来应该做到 A；现实里，它最后只做到了 A'。

而且这里不只是机器人自身的数据，还包括环境数据。很多时候，真正把 gap 拉开的，不一定是机器人本体，而是环境里的某个变量。

所以我们现在其实已经建立起了一个完整的反馈闭环：先在仿真里做，再到现实里执行，再把现实中实际发生了什么捕捉回来，再把这些信息反馈给仿真器，让它不断逼近现实。

当然，这个 gap 永远不会真的归零。但你可以让它越来越小。

听起来很简单，实际上这件事一点都不简单。因为这里面有数百万个参数，你得不断判断，到底哪些参数才是真正重要的，哪些只是噪声。

但这项工作非常有意思。

第二件事，是我们发现仿真还有一个很容易被低估的价值：它不仅是机器人的训练工具，也是工程师的思维校正器。

因为工程师做仿真时，往往会不自觉带着一种“我早就知道答案应该是什么”的预设。但仿真有时会逼你接受一个完全不在直觉里的答案。

举个例子。Aeon 是带轮子的，不是纯足式。所以我们之前在想，怎么教它上楼梯。

当时工程师们最自然的想法都是：先把轮子锁住，然后再去优化腿部电机的动作，让它一步一步爬上去。这很符合人的直觉。

但后来有个工程师更激进一点，他说：如果我们不锁轮子，会怎样？

结果一跑强化学习，发现最优策略根本不是“停住轮子再爬楼”，而是让轮子始终保持低速滚动，不要归零，用它的惯性带着整个身体上楼。

也就是说，对一个带轮的人形机器人来说，最好的上楼方式，并不是模仿人类的“停—抬—踩”，而是利用连续运动的惯性。

这件事很有意思。它提醒我们，仿真还有一个作用，就是逼工程团队跳出那些“理所当然”的答案，去发现一些完全不在传统工程直觉里的解法。 Amit Goel：所以那个行为，是强化学习策略自己找到的？ Arnaud Robert：对，完全是。

我们让强化学习策略在不同仿真参数下探索，而这些参数设置本身也故意做了变化。结果就是，它一下子把整个“解空间”打开了。 Amit Goel：你刚才其实点出了一个很重要的东西：要真正补齐 sim-to-real gap，背后其实需要一个 real-to-sim 的飞轮。也就是当机器人部署出去之后，你能把现实里的数据重新拉回仿真，通过神经重建也好、别的方法也好，把现实重新建出来，再接着训练。

Pras，你们已经在外面部署了不少机器人。那在这种情况下，你们是怎么验证模型的？尤其是你们也做过在合成环境中训练策略的工作。面对仓库里那些不可预测的条件，你们到底是怎么把它们建模进去的？ Pras Velagapudi：这个问题其实很大程度上取决于，你现在训练的是哪一层能力。

如果拿 Digit 来说，它本身就是一套分层模型。最上面是 task space reasoning，中间是 skill space reasoning，最下面是 control space reasoning。

真正最适合用仿真去做强化学习的，主要还是控制层。这一层的时间尺度非常短，而且它依赖的是一个相对简化、但足够关键的环境模型。

比如说，Digit 在维持平衡这件事上，并不一定需要极高精度的视觉。但它必须非常了解接触物理，必须知道地面、身体、障碍物之间到底发生了什么接触关系。

所以我们在这一层最关注的，其实是：现实环境里的情况，是否落在我们训练时做过 domain randomization 的范围之内。

这件事我们确实踩过坑。

一个特别典型的例子是：有些仓库地面非常脏，灰尘很多。结果它的摩擦系数会和你实验室里那种干净漂亮的环氧地坪完全不一样。

于是有一次我们把 Digit 拉到现场，一上去，砰，就出问题了。效果不太理想。

但这类问题的好处是，一旦你知道它在哪，修起来反而很快。你只要把这个变量加进仿真里，修改地面参数，把它纳入 domain randomization，就能把这类情况覆盖进去。

接下来你甚至还能专门做 slip test，去测不同地面的打滑特性，把这些数据系统化，最后训练出一个对各种表面、各种纹理、各种外力干扰都更鲁棒的控制器。

所以我们的思路其实就是同时看两件事：

一件是sim-to-real gap。如果你在 Isaac 里把机器人和环境都建得足够准，确实可以做到某种程度上的 zero-shot sim-to-real transfer。

另一件是real-to-sim gap。也就是你真的去了客户现场之后，要去看执行偏差到底发生在哪，再反过来把这些偏差补进你的参数化仿真和 domain randomization 里。

所以基本上，每去一个新场地，我们都在做同一件事：检查这个现场，是否还落在我们原来训练过的仿真分布范围之内。

!Image 5

一个大脑控制所有机器人，还是分层架构更靠谱

Amit Goel：这也正好把我们带到了今天的下一个主题：模型架构，以及所谓“机器人大脑”的问题。

现在大家的路线差异已经越来越明显了。比如 Skild 更像是在做一个单模型、端到端、尽量覆盖一切的系统；而 Pras 刚才讲的则明显是一套三层推理模型。

所以 Chelsea，我想先从你开始。能不能讲讲你们这个通用机器人基础模型是怎么训练的？它的架构是什么样？分层是怎么做的？你们最近也在分享一些关于 memory 的工作，能不能一并讲讲：到底什么样的模型架构，更可能成为机器人的“大脑”？ Chelsea Finn：我们这几年确实学到了很多东西，不过要短时间内讲清楚也不太容易。

既然你提到 hierarchy，那我就先从这件事说起。对我们来说，分层大概解决了两类问题。

第一类很自然，就是如果你想让机器人持续工作很长时间，并且真的能去规划一连串动作，那你几乎一定得把大任务拆小。

比如“打扫厨房”、“做咖啡”、“组装某个东西”这种任务，机器人如果想完成，最好先把它分解成一系列更小的步骤，再在每个步骤里决定具体动作。

这件事对我们特别重要。也正因为有这种分层架构，我们现在已经能让机器人完成一些最长接近15 分钟的任务，而且中间会跨越很多不同步骤。

分层带来的第二个好处，我觉得反而更容易被低估。它让你可以在一个更高的抽象层上，对机器人进行监督和教学。

比如你不用总是给它完整的 teleoperation 数据，手把手教它“每一步怎么动”。你完全可以在更高层告诉它：

“现在你不该这样做，你应该先拿起海绵。” 或者“你应该往右边再挪一点。”

这种监督方式有几个好处。第一，如果现场没有人，这种更高层的指导也更容易远程提供。第二，它实际上是在教机器人如何改进自己的高层抽象。第三，在很多情况下，它比继续补大量 teleoperation 数据更高效。

还有最后一点，我也想提一下。虽然我们说它是 hierarchy，但你完全可以把这个 hierarchy 重新折叠进一个单一模型里。

从某种意义上说，这和 chain-of-thought 很像：模型先在内部想清楚接下来应该做哪几个步骤，再用这些步骤去约束自己的动作预测。

也就是说，它最后仍然可以是一个单模型。而且我们发现，当你把这种分层思考压进一个单模型里时，底层 policy 本身往往也会变得更强。 Amit Goel：很有意思。那 hierarchy 这件事，会不会也改变你们对安全性的理解？因为当机器人可以在内部 roll out 不同方案时，这会不会天然对安全更有帮助？ Chelsea Finn：我不确定 hierarchy 本身是不是直接提升安全性的关键。

我们的经验是，真正的安全机制其实应该放在整个技术栈的每一层。但很多最硬的安全约束，最终还是得放在最底层。因为只有在那里，你才能真正保证系统会按你预期的方式运行。

当然，能够在更高层抽象上进行干预，这一点非常有价值。比如在我们的一些学术研究里，我们把类似架构用在手术机器人上。这样医生在必要的时候，就不一定非得重新接管机器人本体，也可以直接通过语言层面的指令去介入。 Amit Goel：Deepak，你们一直在做一个你称之为 embodied brain 的系统。那从架构角度看，基础模型到底是怎么让“同一个模型控制不同机器人形态”这件事成立的？

也就是说，如果你不是沿着一台机器人、一类任务一路往下做垂直优化，而是要同时解决不同具身形态的问题，这会怎么改变整个模型架构？ Deepak Pathak：我觉得，这恰恰是我们大量使用仿真的地方。

我们说它是 embodied brain，但它内部其实仍然是有 hierarchy 的。因为身体的不同部分，本来就运行在不同频率上。

比如你的大脑控制膝盖和关节，频率可能非常高，可能是一秒几百次、几千次；而你开口说话，可能一秒也就几个词；再往上，真正的“思考”，可能是几秒钟才形成一个相对完整的意图。

所以，分层本来就是自然存在的。我们的模型里也有这种层级结构，而且低频层会建立在高频层之上，一层层组合起来。

但真正关键的是，为了让模型跨具身形态工作，我们会确保这个 hierarchy 的每一层，都能看到来自多个 embodiment 的数据。

我们之前有一个很出圈的结果：同一个模型，真的就是字面意义上的“同一个模型”，可以同时放在一个 humanoid 上，也可以放在一个 quadruped 上。你甚至把它们的肢体配置改掉，它们也能在几秒钟内重新适应，然后继续站起来、继续走。

而背后真正发生的事，其实不是我们提前替它写好了适配规则。恰恰相反，那些测试时用到的机器人，模型在训练阶段根本没见过。

它真正学会的是另一件事：如果我的身体变了，我该怎么适应。

也正因为我们是大规模这么做的，最后才在机器人上看到了某种很像语言模型的东西——也就是in-context learning。

模型不再把自己理解成“我是控制 humanoid 的模型”或者“我是控制 quadruped 的模型”。它开始学会的是：我先读自己的短期历史，我先给所有电机一点输入，我先感受一下我到底有几个电机、它们是什么关系，然后我再决定下一步动作。

这种能力，以前我们几乎只在语言模型里见过。而且语言模型里，这种能力也是在规模大到一定程度以后才涌现出来的，往往是跨过30、40 万亿 token这种门槛之后。

在我们这里，因为仿真把数据规模硬拉了上去，所以这种跨身体、多具身形态的泛化能力也真的出现了。

而一旦底层模型已经能控制多种身体，上层抽象就会容易很多。因为这时候你在更高层操作的，其实已经不再是“某个具体机器人怎么动某个具体关节”，而是更抽象的 latent space。

比如“把手臂移到这里”这件事，对流水线机械臂和对 humanoid 来说，本质上其实没那么不同。只要底层高频模型已经把 embodiment 这一层接管掉了，上层就可以在更抽象的空间里做推理。 Amit Goel：明白了。也就是说，你们是在 pre-training 阶段先把“可能性空间”尽量铺开，让模型先在各种身体里学会适应。 Deepak Pathak：我说得可能有点哲学化，但在我看来，身体本身其实也是环境的一部分。

就像你面前有很多瓶子、很多桌子、很多沙发一样，也有很多不同的身体。计算机不应该把“身体”看成一种特殊的东西，它也只是环境变量的一部分。 Amit Goel：Ashok，你以前说过一句很有名的话：神经网络加摄像头，效果就是特别好。在自动驾驶里，你们就是沿着这条路一路走过来的。

但机器人跟车不一样，它会直接接触世界，会抓东西、碰东西、受力、反馈。那这会不会改变你们构建机器人大脑的方式？跟自动驾驶比起来，有没有根本性变化？ Ashok Elluswamy：我会说，没有那么大。

本质上，它仍然是一套端到端模型：输入视频，输出底层控制。当然，我并不是说 hierarchy 没用。分层决策当然有价值。

但我的观点是，这种 hierarchy 必须内生在同一个决策过程里。它不能被切成两个互相分离的系统：一个模型只管高层决策，另一个模型只管底层控制。

因为现实世界里，很多时候你必须根据实时信息快速反应。在那种情况下，你没法把高层和底层拆得太开。

我自己的感觉是，现在很多做人形机器人的人，其实还没有真正见过机器人问题里的“长尾”到底有多长。做自动驾驶的人对这个问题会更敏感，因为自动驾驶的长尾是真的又长又黑，而且非常难解。

一旦你真的面对这种长尾，你就会知道，很多决策是不能被拆成松散、分离的几个部分来做的。你必须在相对高的帧率下，同时做高层规划和底层动作决策，而且它们要在同一个系统里共同完成。

所以我们给 Optimus 设计架构时，基本也是沿着这个思路来的。它当然内部有层次，但这些层次都在同一个模型里跑，彼此共享信息，而且从延迟角度看，整个决策链条也是一起被建模的。

这也是为什么我觉得，这套架构会很自然地扩展到人形机器人上。甚至不只是人形机器人，任何机器人都一样。

只是我们现在恰好先做的是这一种身体。

归根到底，所有东西最后都是统一训练的。所谓“高层决策”和“低层决策”的区分，其实更多只是开发者脑子里的区分。对模型来说，它们本质上就是 token 在流动，就是一个连续的决策空间。

你当然可以把这个旋钮调得更细一点，或者更粗一点，但在模型内部，它其实是连续的。 Amit Goel：所以你们现在只是往这套系统里继续加更多感知模态，而不打算改掉它的基本哲学？ Ashok Elluswamy：对，核心约束并没有变。

你要做的无非是增加更多感知模态，再让输出空间覆盖更多自由度。但底层原则没变：你还是得实时决策。

控制信号当然有层级，但最低频那一层绝不能太低。因为机器人的安全，不能依赖一个运行得太慢的系统。 Amit Goel：Pras，我想听听你的看法。因为你们的路线显然和 Ashok 不太一样。 Pras Velagapudi：对，我们确实会把控制器拆开。

但与此同时，我们也不是把这些模块完全割裂开。它们仍然有很清晰的层级关系，而且是共同训练的。

比如说，如果我们底层有一个强化学习控制器，那么当我们在它上面再叠一层 imitation learning 或 behavioral cloning 模型时，这个上层模型最好就是跟它未来要协作的那个 RL 控制器一起训练出来的。

所以它们并不是彼此独立的。它们之间共享 latent space，也一直在通信。

我们之所以坚持分层，主要有几个原因。

第一，是时间尺度不同，也和模型部署的位置有关。模型越大，延迟约束越严，你就越不可能把所有东西都放在同一个地方运行。

有些模型必须跑在机器人本体上，也就是 edge；有些可以放得远一点，甚至放到云端。你离机器人越远，允许的决策延迟也就越大。

第二，是因为我们实际部署中既有 AI 学出来的技能，也有很多工程上直接写出来的技能。

比如 docking、和 AMR 的交互、某些特定流程，这些事情未必一定要靠学习。很多时候我们完全可以把一条动作轨迹明确写出来，告诉机器人该怎么对接、该怎么停靠。

底层控制器我们当然还会用学习模型，但在更高层，某些情况下工程化的 motion specification 反而更直接、更可靠。

而一旦把层拆出来，我们就获得了一种很重要的能力：模块化。

你可以在不同层之间自由混搭。比如在中间层快速插入一个手写技能，再配上学习出来的底层控制；或者反过来，用学习的中层能力去接一个高度工程化的顶层任务流。

对真正的部署场景来说，这种模块化非常重要。因为现实里你接的不是一个抽象任务，而是一整套系统语义、流程语义、设备语义。你必须能在这些层之间快速拼接。 Amit Goel：也就是说，分层其实也给了你们更快部署的能力，而不是非得等一个统一模型把所有东西自己学会。 Pras Velagapudi：对，就是这个意思。 Amit Goel：Arnaud，你们做的是一种对精度要求非常高的场景，这和仓储物流那种“只要能干活”完全不是一个难度级别。

如果任务精度已经细到毫米级，那这会怎么改变你们对机器人大脑、对智能系统的理解？ Arnaud Robert：我先退一步，从我们整体怎么处理模型讲起。

我们的路线可能和前面几位又不太一样。我们更像是走一条best-of-breed的路。

也就是说，我们会去用现成的 VLA、世界模型，看看哪些在我们的场景里表现最好，然后把它们拿来组合。而在这个过程中，我们学到了几件非常重要的事。

第一件事，是我们其实正在做一件很像给 ChatGPT 写 prompt 的工作。只不过不是给聊天机器人写 prompt，而是在给机器人写 prompt。

而且这件事比想象中难得多。

因为如果你想让这些世界模型、VLA 模型真正按预期工作，你必须把它所需的输入组织得非常好。如果它是语音控制，事情还简单一点；但现实里的机器人不是只有语音，它还得同时吃进环境变化、空间信息、任务状态、感知结果等等不同类型的输入。

换句话说，我们做了很多所谓的 prompting engineering，只不过对象是机器人，不是 LLM。

第二件事，是 perception、planning、control 这些层虽然本来就运行在不同速度、不同层级上，但现实环境不是静止的。环境一变，你就得重新决定：这个 prompt 还成不成立？这个模型还该不该继续跑？要不要暂停、切换、重启？

比如有人突然从旁边走过去，比如工厂产线把某个工位的位置改了，哪怕只是这些变化，也会要求你在接近实时的条件下，重新组织上下文、重新调起模型。

第三件事，也就是回到你刚才问的精度问题。因为我们做的是高精度场景，所以我们最后其实不是只依赖一个模型，而是会有多个模型并行存在。

有些模型擅长高精度操作，有些模型擅长快速移动，还有一些更适合别的任务。

所以我们后来慢慢把整套系统转向了一种更像agentic AI的思路：如果你手里有很多不同模型，你真正要解决的问题就不再是“把某个模型做得多强”，而是怎么把它们编排起来，并且在特定环境、特定任务下，始终挑出那个最合适的模型来执行。

这件事听起来好像没什么，其实一点都不简单。但我们现在确实在往这个方向投很多精力。

!Image 6

从短期 Demo 到长期运行的 Agent，真正的考验才刚开始

Amit Goel：好，最后我想用一个更大的问题来收尾。

过去几个月，整个 AI 世界都因为 Agent 发生了很大变化。所以我想请每位嘉宾都谈谈：

当我们从短期 demo，走向那种真正能够在现实环境里24/7 持续运行的长时 Agent 时，这会不会从根本上改变你们对模型架构、基础设施、验证方式、安全性，甚至商业经济性的理解？

换句话说，当 Agent 真正进入物理世界时，什么会被改写？

谁想先来？ Pras Velagapudi：我可以先说。

对我们来说，这件事其实和我们原来在做的方向很自然地衔接上了。因为 Digit 从来就不是一台孤零零的机器人，它本来就是一个生态系统的一部分。

我们部署的不只是 Digit 本体。我们还有一个云平台，去管理这些 Digit，去连接仓储管理系统、制造执行系统，还要协调 AMR 等其他设备。

所以我们其实早就已经在搭一套 orchestration platform，负责让 Digit 知道什么时候该去充电、什么时候该去接 AMR 的货、什么时候该在传送带之间搬东西。

在这个基础上，所谓 Agent 的到来，对我们来说更像是在原有系统之上，再多了一层 AI。它不是推翻重来，而是让 orchestration 这层也变得更智能。

而因为我们本来就已经有一个持久运行、可持续编排的平台在底下，所以对我们来说，这更像是：

“又一个 AI 带来的 unlock 突然出现了，而且会让我们更快到市场。” Ashok Elluswamy：我觉得，前提还是机器人本身得先足够聪明。

因为如果你真想让它连续很多天、24/7 地跑，那它首先得具备足够强的基础智能。其次，安全性也必须足够强。只有这两点先过线了，你才有资格去谈 persistent agents。

一旦这两个条件都满足，其实后面的事反而没那么神秘。你只需要在上面再叠一层 agent framework，它自然就能长时间跑下去。

所以从我的角度看，关键不是 Agent 这个词本身，而是：你底下那台机器人，到底有没有到那个阈值。 Chelsea Finn：在我看来，一个“看起来已经很好用”的模型，和一个“真能在现实部署里产生价值”的模型之间，最大差距之一，其实就是可靠性。

而长时运行的 Agent 一个特别有意思的地方就在于：它不会因为第一次失败就结束。

它可以尝试一次，失败了再试一次；换一种方式再试；在部署过程中不断调整自己。

我觉得这件事很重要。因为如果机器人真的能像这样在现实世界里持续尝试、持续修正，那它反而有可能跨过过去一直很难跨过去的那道门槛，真正变得“有用”。

这可能会成为机器人走向真实场景的一个关键 unlock。 Arnaud Robert：我接着这个往下讲一点。

对我们来说，下一代能力里非常重要的一件事，其实是 AI 的peer-to-peer属性。

假设你有很多台 Aeon，或者很多台 Digit，在外面一起干活。如果其中某一台在某个任务上失败了，但它后来找到了另一种完成任务的方法，那么你能多快把这份新经验同步给整个机器人 fleet？

是在同一个工厂里同步？还是在全球范围内同步？

我觉得，这种机器人之间的经验共享、横向传播，会是一件非常值得看的事。 Deepak Pathak：我觉得，和 ChatGPT 那种产品不一样。ChatGPT 一上线，一周就能有一百万用户。

但机器人不是这样。机器人真正难的是最后一公里，而且这条最后一公里非常难。

我觉得首先得承认，难度是分很多维度的。

Chelsea 刚才提到了 reliability。我还想补一个维度，叫tolerance，也就是应用场景到底允许你犯多大的错。

这件事会直接决定你该先从哪里落地。

比如，如果你做的是自动驾驶这种 safety-critical 场景，那几乎任何失败都很糟糕。如果你在工厂里处在整条供应链的瓶颈位置，那失败也会很糟糕。但如果你只是供应链最后一环的一部分，也许系统能容忍你偶尔犯错。

而这种“容错度”本身，会直接支配机器人最后一公里怎么走。老实说，在我们真正一头扎进这个 last-mile rabbit hole 之前，我自己都没有把这件事想得这么清楚。