Physical Intelligence 发布 VLA 模型 π0.7,首次在机器人领域实现组合泛化,其通过为多样化数据添加元数据标签的方法论,使模型能利用低质量数据并涌现出新能力,性能超越任务专家模型。
📝 详细摘要
文章报道了 Physical Intelligence 公司发布的全新视觉语言动作模型 π0.7。该模型的核心突破在于首次在机器人领域证明了组合泛化能力,即模型能够组合已学过的原子技能来解决全新的、未见过的任务,例如操作从未见过的空气炸锅。π0.7 的关键方法论是“多样化的数据需要多样化的 prompt”,通过为训练数据添加包含任务指令、子目标图像、数据质量评分等在内的多层元数据,模型得以区分数据优劣,从而能够有效利用包括失败尝试、低质量演示在内的多样化数据源。实验结果显示,未经任务微调的 π0.7 在咖啡制作、叠衣服等复杂任务上,性能追平甚至超越了经过专门微调的专家模型,标志着具身智能领域“通才追平专才”的涌现时刻。文章还深入探讨了其架构、与“世界模型”路线的对比,以及这一发现对机器人数据清洗传统做法的颠覆性意义。
💡 主要观点
- π0.7 实现了机器人领域的组合泛化,是里程碑式突破。 模型能够将训练中学到的原子技能(如抓取、移动)进行组合,以解决全新的、训练数据中不存在的复杂任务(如用空气炸锅烤红薯),这类似于大语言模型的涌现能力,是机器人智能的一次质变。
💬 文章金句
- π0.7 第一次在机器人领域证明了组合泛化,且 VLA。在遇到新任务时,模型可以组合以前学过的原子技能,自己拼出解法。
- π0.7 最核心的洞见只有一句话,多样化的数据需要多样化的 prompt。
- 只要模型知道每条数据的质量标签,它就能自己决定要学什么、不学什么。垃圾数据不再是垃圾,是带着 quality=1/5 标签的有用信号。
- 一个什么都没专门训过的通才,打过了专门为某个任务训出来的专才。
- 当你的基线吃掉了你的研究假设,你能怎么办?你写一篇论文,去搞清楚基线为什么这么强。那篇论文,就是π0.7。
📊 文章信息
AI 初评:92
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3920
标签: 机器人, 具身智能, VLA, 组合泛化, Physical Intelligence