本文是量子位联合蚂蚁灵波、乐聚机器人举办的具身智能行业沙龙实录,汇聚近 200 位从业者,围绕具身智能从实验室走向物理世界所面临的数据采集、模型训练、评测基准等核心挑战展开深度讨论。
📝 详细摘要
文章记录了量子位、蚂蚁灵波与乐聚机器人联合发起的具身智能行业沙龙的核心内容。与会专家一致认为,具身智能的关注点已从硬件本体转向数据与模型,行业正面临数据获取难、跨本体复用难、流转效率低等集体焦虑。乐聚机器人分享了数据驱动具身智能的产业挑战与应对策略,强调数据规模需达到 Scaling Law 起效的门槛。蚂蚁灵波介绍了 LingBot-VLA 模型,该模型借鉴 LLM 预训练范式,使用 2 万小时真机数据覆盖 9 种机器人构型,旨在提升泛化能力。上海交通大学李永露副教授阐述了 GM-100 评测基准的设计理念,指出当前具身数据标注体系的根本性缺陷在于语言描述无法有效区分物理过程。圆桌讨论环节,多位嘉宾围绕数据挑战与破局路径展开对话,核心观点包括:数据质量远比数量重要、认知对齐是大规模数据采集的最大难题、仿真数据无法完全替代真机数据、未来数据采集将向无感化演进。
💡 主要观点
- 具身智能的关注点已从硬件本体转向数据与模型,行业面临数据获取难、复用难、流转效率低等核心瓶颈。 与文本和视觉数据不同,具身数据依赖真机采集,成本高、效率低,且跨本体与多模态复杂,缺乏统一标准与规模化生产能力,成为制约产业落地的核心障碍。
💬 文章金句
- 大规模数据采集最难的是认知对齐,让每一个数采员真正理解算法团队想要什么,这件事比写质检规范难得多。
- 语言描述无法有效区分物理过程,这是当前具身数据标注体系的根本性缺陷。
- 低分未必代表好,但起步就拿高分肯定不行。要是刚发布大家都能冲上 80 分,那这个基准就废了。
- 一个人每天与物理世界交互 10 小时、持续 10 年,累计才约 3 万小时,而一个 10 岁孩子用这些数据已经能完成海量复杂任务。说明现在具身范式对数据的利用率太低。
- 仿真数据永远无法完全替代真机数据,但可以大幅压缩对真机数据的依赖。
📊 文章信息
AI 初评:88
来源:量子位
作者:思邈
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5047
标签: 具身智能, VLA模型, 数据采集, 评测基准, LingBot-VLA