当 200 位具身从业者被拉进同一个屋子

📌 一句话摘要

本文是量子位联合蚂蚁灵波、乐聚机器人举办的具身智能行业沙龙实录，汇聚近 200 位从业者，围绕具身智能从实验室走向物理世界所面临的数据采集、模型训练、评测基准等核心挑战展开深度讨论。

📝 详细摘要

文章记录了量子位、蚂蚁灵波与乐聚机器人联合发起的具身智能行业沙龙的核心内容。与会专家一致认为，具身智能的关注点已从硬件本体转向数据与模型，行业正面临数据获取难、跨本体复用难、流转效率低等集体焦虑。乐聚机器人分享了数据驱动具身智能的产业挑战与应对策略，强调数据规模需达到 Scaling Law 起效的门槛。蚂蚁灵波介绍了 LingBot-VLA 模型，该模型借鉴 LLM 预训练范式，使用 2 万小时真机数据覆盖 9 种机器人构型，旨在提升泛化能力。上海交通大学李永露副教授阐述了 GM-100 评测基准的设计理念，指出当前具身数据标注体系的根本性缺陷在于语言描述无法有效区分物理过程。圆桌讨论环节，多位嘉宾围绕数据挑战与破局路径展开对话，核心观点包括：数据质量远比数量重要、认知对齐是大规模数据采集的最大难题、仿真数据无法完全替代真机数据、未来数据采集将向无感化演进。

💡 主要观点

- 具身智能的关注点已从硬件本体转向数据与模型，行业面临数据获取难、复用难、流转效率低等核心瓶颈。 与文本和视觉数据不同，具身数据依赖真机采集，成本高、效率低，且跨本体与多模态复杂，缺乏统一标准与规模化生产能力，成为制约产业落地的核心障碍。

蚂蚁灵波 LingBot-VLA 模型借鉴 LLM 预训练范式，使用 2 万小时真机数据覆盖 9 种机器人构型，旨在提升泛化能力。 VLA 模型的主流范式是轨迹拟合，泛化能力有限。LingBot-VLA 通过预训练学习通用知识，并引入深度模型蒸馏解决透明、反光物体的深度估计难题，初步发现增加预训练数据量有助于加速后训练收敛。

GM-100 评测基准揭示当前具身模型在物理操作任务上的真实水平普遍偏低，语言描述无法有效区分物理过程是根本性缺陷。 GM-100 设计了 100 个覆盖未充分涵盖物理过程的任务，Pi 0.5 得分仅 13 分，LingBot-VLA + Depth 得分 17 分。语言层面的同一描述可能对应完全不同的物理过程，导致数据标注体系失效。

数据质量远比数量重要，当前具身模型对数据的利用率极低，如何从有限数据中充分提取价值是更根本的科学命题。 一个人 10 年与物理世界交互约 3 万小时，而一个 10 岁孩子已能完成海量复杂任务，说明现有范式对数据利用率极低。高质量数据应能自然捕捉人类真实行为模式，而非人为设置任务反复采集。

仿真数据无法完全替代真机数据，但可大幅压缩对真机数据的依赖，未来数据采集将向无感化演进。 仿真在物理层与交互层仍是最大短板，物体被操作后的状态变化和力学反馈几乎无法准确还原。随着机器人部署规模扩大，其自身产生的真机数据将成为主要数据来源，形成数据飞轮。

💬 文章金句

- 大规模数据采集最难的是认知对齐，让每一个数采员真正理解算法团队想要什么，这件事比写质检规范难得多。

语言描述无法有效区分物理过程，这是当前具身数据标注体系的根本性缺陷。
低分未必代表好，但起步就拿高分肯定不行。要是刚发布大家都能冲上 80 分，那这个基准就废了。
一个人每天与物理世界交互 10 小时、持续 10 年，累计才约 3 万小时，而一个 10 岁孩子用这些数据已经能完成海量复杂任务。说明现在具身范式对数据的利用率太低。
仿真数据永远无法完全替代真机数据，但可以大幅压缩对真机数据的依赖。

📊 文章信息

AI 初评：88

来源：量子位

作者：思邈

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5047

标签：具身智能, VLA模型, 数据采集, 评测基准, LingBot-VLA

阅读完整文章

当 200 位具身从业者被拉进同一个屋子

🤖 問 AI