国内首个！加入六维力的全感知数采，让 VLA 模型进化出力触觉

📌 一句话摘要

本文报道了开普勒机器人发布国内首个原生全感知力触数采系统，通过引入六维力与触觉数据，构建 VTLA 全感知大模型，旨在解决具身智能在工业场景中数据采集的瓶颈，提升机器人复杂操作的精度与泛化能力。

📝 详细摘要

文章深入报道了国产人形机器人公司开普勒在具身智能数据采集领域的最新突破。面对当前具身智能依赖视觉和仿真数据导致的泛化能力弱、采集成本高等瓶颈，开普勒发布了国内首个原生全感知力触数采系统。该系统创新性地采用“双路径数采”策略：一条通过力反馈外骨骼和触觉手套实现高保真、高精度的“做精”路径；另一条通过类 UMI 的人类示范采集实现低成本、大规模的“做量”路径。基于此数据底座，开普勒构建了 VTLA（视觉-触觉-语言-动作）全感知大模型，将触觉模态提升至与视觉同等地位。文章指出，该方案已在汽车工厂产线实测中取得显著效果，装配成功率高达 99.4%，较纯视觉模型提升 19.4%，为具身智能在工业场景的规模化落地提供了现实解法。

💡 主要观点

- 数据采集是当前制约具身智能发展的核心瓶颈。 文章指出，依赖视觉和仿真数据存在感知盲区和仿真到现实差距，导致模型在真实工业场景泛化成功率低（25%-30%），且传统人工采集效率低下、成本高昂。

引入六维力与触觉数据是补齐物理世界理解的关键。 视觉只能感知“在哪、什么样”，而触觉和六维力（三轴力+三轴力矩）能直接感知接触、受力、滑动等状态，让机器人实现“边做边感受”，从而在抓取、装配等精细操作中显著提升稳定性和成功率。

“双路径数采”策略平衡了数据精度与规模。 开普勒的方案包含高保真双向遥操作闭环采集（做精）和低成本人类示范采集（做量）两条路径，前者保证复杂任务的数据质量，后者快速扩大数据覆盖范围，共同构建可持续扩展的数据引擎。

VTLA 全感知大模型标志着具身智能范式的演进。 在传统 VLA（视觉-语言-动作）模型基础上，VTLA 将触觉模态提升至核心地位，实现视觉、触觉、语言、动作数据的端到端统一编码与处理，让模型不仅能规划动作，还能在交互中实时校正。

💬 文章金句

- GEN-1 的成功说明了一点：过去数年，大语言模型的 Scaling Law 建立在几乎取之不尽的互联网数据之上；而如今，具身智能的 Scaling Law 正越来越依赖对真实世界交互数据的获取、构建与高效利用。

触觉和六维力数据带来的不只是性能的提升，更让机器人改变了参与物理世界的方式。从「只会看」到「可以触」，再到「理解接触过程中的力与交互反馈」，这种转变才是具身智能走向实际应用的关键。
两条路径并行推进，在精度与规模之间建立平衡，为机器人的复杂操作能力与模型泛化能力提供稳定的数据基础。
力触觉补上了具身智能长期以来最缺的一环，即对接触过程与物理交互的理解，使其更接近真实世界中的可用状态。
在真实产线中，这些能力也得到了验证。在某汽车工厂产线的实测中，依托力触觉全感知数据的 VTLA 模型连续完成 1000 次高精度装配操作，成功率达到 99.4%，较纯视觉模型提升 19.4 %。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4809

标签：具身智能, 机器人, 数据采集, 力触觉, VTLA模型

阅读完整文章

国内首个！加入六维力的全感知数采，让 VLA 模型进化出力触觉

🤖 問 AI