本文报道了开普勒机器人发布国内首个原生全感知力触数采系统,通过引入六维力与触觉数据,构建 VTLA 全感知大模型,旨在解决具身智能在工业场景中数据采集的瓶颈,提升机器人复杂操作的精度与泛化能力。
📝 详细摘要
文章深入报道了国产人形机器人公司开普勒在具身智能数据采集领域的最新突破。面对当前具身智能依赖视觉和仿真数据导致的泛化能力弱、采集成本高等瓶颈,开普勒发布了国内首个原生全感知力触数采系统。该系统创新性地采用“双路径数采”策略:一条通过力反馈外骨骼和触觉手套实现高保真、高精度的“做精”路径;另一条通过类 UMI 的人类示范采集实现低成本、大规模的“做量”路径。基于此数据底座,开普勒构建了 VTLA(视觉-触觉-语言-动作)全感知大模型,将触觉模态提升至与视觉同等地位。文章指出,该方案已在汽车工厂产线实测中取得显著效果,装配成功率高达 99.4%,较纯视觉模型提升 19.4%,为具身智能在工业场景的规模化落地提供了现实解法。
💡 主要观点
- 数据采集是当前制约具身智能发展的核心瓶颈。 文章指出,依赖视觉和仿真数据存在感知盲区和仿真到现实差距,导致模型在真实工业场景泛化成功率低(25%-30%),且传统人工采集效率低下、成本高昂。
💬 文章金句
- GEN-1 的成功说明了一点:过去数年,大语言模型的 Scaling Law 建立在几乎取之不尽的互联网数据之上;而如今,具身智能的 Scaling Law 正越来越依赖对真实世界交互数据的获取、构建与高效利用。
- 触觉和六维力数据带来的不只是性能的提升,更让机器人改变了参与物理世界的方式。从「只会看」到「可以触」,再到「理解接触过程中的力与交互反馈」,这种转变才是具身智能走向实际应用的关键。
- 两条路径并行推进,在精度与规模之间建立平衡,为机器人的复杂操作能力与模型泛化能力提供稳定的数据基础。
- 力触觉补上了具身智能长期以来最缺的一环,即对接触过程与物理交互的理解,使其更接近真实世界中的可用状态。
- 在真实产线中,这些能力也得到了验证。在某汽车工厂产线的实测中,依托力触觉全感知数据的 VTLA 模型连续完成 1000 次高精度装配操作,成功率达到 99.4%,较纯视觉模型提升 19.4 %。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4809
标签: 具身智能, 机器人, 数据采集, 力触觉, VTLA模型