π0.7 发布，VLA 押出了机器人的 GPT-3 时刻

📌 一句话摘要

Physical Intelligence 发布 VLA 模型 π0.7，首次在机器人领域实现组合泛化，其通过为多样化数据添加元数据标签的方法论，使模型能利用低质量数据并涌现出新能力，性能超越任务专家模型。

📝 详细摘要

文章报道了 Physical Intelligence 公司发布的全新视觉语言动作模型 π0.7。该模型的核心突破在于首次在机器人领域证明了组合泛化能力，即模型能够组合已学过的原子技能来解决全新的、未见过的任务，例如操作从未见过的空气炸锅。π0.7 的关键方法论是“多样化的数据需要多样化的 prompt”，通过为训练数据添加包含任务指令、子目标图像、数据质量评分等在内的多层元数据，模型得以区分数据优劣，从而能够有效利用包括失败尝试、低质量演示在内的多样化数据源。实验结果显示，未经任务微调的 π0.7 在咖啡制作、叠衣服等复杂任务上，性能追平甚至超越了经过专门微调的专家模型，标志着具身智能领域“通才追平专才”的涌现时刻。文章还深入探讨了其架构、与“世界模型”路线的对比，以及这一发现对机器人数据清洗传统做法的颠覆性意义。

💡 主要观点

- π0.7 实现了机器人领域的组合泛化，是里程碑式突破。 模型能够将训练中学到的原子技能（如抓取、移动）进行组合，以解决全新的、训练数据中不存在的复杂任务（如用空气炸锅烤红薯），这类似于大语言模型的涌现能力，是机器人智能的一次质变。

核心创新在于通过元数据标签，让模型学会利用多样化数据。 传统方法依赖精心清洗的高质量数据。π0.7 为每条数据添加质量、速度、是否出错等元数据标签，使模型能自主区分信号优劣，从而将失败数据、低质量演示等“垃圾数据”转化为有用的学习信号，颠覆了数据清洗的必要性。

通才模型性能超越任务专家模型，验证了 VLA 路线的潜力。 未经任何任务专项微调的 π0.7，在多个复杂任务上的表现追平甚至超越了经过强化学习或监督微调的专家模型。这证明了基于大规模预训练 VLM 的端到端控制路线，在开箱即用和泛化能力上的巨大优势。

π0.7 的“世界模型”组件作用独特，并非用于物理模拟。 模型包含一个从图像生成模型初始化的世界模型，但其作用并非预测动作后果，而是将任务指令“翻译”成下一帧成功的视觉画面，作为一个“消歧器”来指导动作生成，这与主流世界模型路线的规划逻辑有本质不同。

💬 文章金句

- π0.7 第一次在机器人领域证明了组合泛化，且 VLA。在遇到新任务时，模型可以组合以前学过的原子技能，自己拼出解法。

π0.7 最核心的洞见只有一句话，多样化的数据需要多样化的 prompt。
只要模型知道每条数据的质量标签，它就能自己决定要学什么、不学什么。垃圾数据不再是垃圾，是带着 quality=1/5 标签的有用信号。
一个什么都没专门训过的通才，打过了专门为某个任务训出来的专才。
当你的基线吃掉了你的研究假设，你能怎么办？你写一篇论文，去搞清楚基线为什么这么强。那篇论文，就是π0.7。

📊 文章信息

AI 初评：92

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3920

标签：机器人, 具身智能, VLA, 组合泛化, Physical Intelligence

阅读完整文章

π0.7 发布，VLA 押出了机器人的 GPT-3 时刻

🤖 問 AI