灵初智能发布首个大规模人类手部操作数据集(10 万小时)及 Psi 双系统架构,其模型 Psi-R2 在权威评测 MolmoSpace 中登顶,为具身智能的落地提供了一条基于人类数据的新路径。
📝 详细摘要
文章报道了灵初智能在具身智能领域的最新突破。该公司构建了首个可用于预训练的大规模人类手部操作全模态数据集,总量超过 10 万小时,并开源了其中 1000 小时。基于此数据,灵初提出了 Psi 双系统架构:Psi-R2 作为世界行动模型,学习人类精细操作;Psi-W0 作为动作条件型世界模型,负责反事实推理和通过强化学习转换人类数据。该架构形成了数据飞轮,持续提升模型性能。其核心模型 Psi-R2 在权威评测平台 MolmoSpace 中超越 PI、DreamZero 等国际知名模型,登顶榜单,成功率比同类 VLA 模型高出近 10 倍。文章强调,灵初的路径聚焦于利用高质量人类数据解决具身智能的“数据荒”问题,并已与多家企业达成生态合作,推动技术商业化落地。
💡 主要观点
- 解决具身智能“数据荒”的关键在于大规模、高质量的人类数据。 与自动驾驶、大语言模型不同,具身智能缺乏成熟的物理世界数据集。灵初构建了超过 10 万小时的人类手部操作数据,覆盖数百种场景和任务,为模型预训练提供了前所未有的数据基础,并开源了部分数据以推动行业共建。
💬 文章金句
- 具身智能要想面向真实商业化场景落地,纯人类数据训练是必要的。
- 数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。低信噪比的数据甚至还会起到反作用。
- Psi-R2 是学习怎么做,Psi-W0 是协助做得更好。
- 集众智,才是具身智能跑赢节拍、实现商业落地的唯一捷径。
📊 文章信息
AI 初评:88
来源:量子位
作者:鹭羽
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4307
标签: 具身智能, 机器人, 人类数据, 数据集, 世界模型