中国具身屠榜全球！10 万小时数据炸场，PI、英伟达集体破防

📌 一句话摘要

灵初智能发布具身智能框架 PSI，利用近 10 万小时人类操作数据预训练策略模型 Psi-R2，并结合世界模型 Psi-W0 进行反事实推演，在 MolmoSpaces 榜单上超越 PI 和英伟达 GEAR 等主流方案。

📝 详细摘要

文章报道了灵初智能在具身智能领域的最新突破。针对遥操作数据成本高、采集慢的瓶颈，该公司提出利用海量人类操作数据进行机器人预训练的新路径。其核心是 PSI 框架，包含策略模型 Psi-R2 和世界模型 Psi-W0。Psi-R2 使用近 10 万小时人类数据和 5000 多小时真机数据进行预训练，学习任务策略；Psi-W0 则作为动作条件型世界模型，通过推演失败样本和未来场景，为策略评估和动作迁移提供反事实能力。该方法在 MolmoSpaces 榜单上取得第一，超越了 PI 和英伟达 GEAR 等模型。文章深入分析了数据价值的核心在于信噪比、3D 位姿精度和作业节拍，并介绍了灵初在触觉信号处理和开源数据集方面的进展，描绘了一条从人类技能到机器人执行的完整训练路径。

💡 主要观点

- 利用海量人类操作数据是突破具身智能数据瓶颈的关键路径。 传统遥操作数据成本高、速度慢，难以支撑大规模训练。人类在真实作业中产生的海量、高精细操作数据，天然携带任务目标和节拍信息，是更丰富、更贴近产业需求的数据源。

PSI 框架通过策略模型与世界模型协同，解决了从人类数据到机器人执行的迁移难题。 Psi-R2 策略模型负责从成功的人类轨迹中学习‘怎么做’；Psi-W0 世界模型则通过推演失败和未来场景，提供反事实能力，用于策略评估和在‘梦境’中进行强化学习微调，将人类动作转化为机器人可执行的动作。

数据价值的核心在于信噪比、精度和节拍，而非单纯的数量。 对于具身智能，高价值数据的优先级是任务多样性 > 物体多样性 > 场景多样性；感知模态上，精准的 3D 位姿（亚毫米级）远高于 2D 图像特征。人类数据的节拍更接近真实 SOP，对产业落地至关重要。

在公开基准 MolmoSpaces 上超越主流方案，验证了技术路线的有效性。 Psi-R2 在该榜单总榜位列第一，整体表现超过具身大模型标杆 PI 以及英伟达的 GEAR 方案，表明其基于人类数据的预训练加世界模型微调的路径具有竞争力。

💬 文章金句

- 具身智能领域最近有一个心照不宣的焦虑：真机遥操作数据这条路，可能走不下去了。

最后剩下的，反而是一条朴素的路线：Raw Data In， Raw Data Out。
Psi-R2 像‘会做题的学生’，Psi-W0 像一套能把过程重新推演的系统。
决定数据价值的核心因素，不在数量本身，而在信噪比。
灵初真正亮出来的，是一条完整的训练路径：当真机遥操作数据撑不起大规模预训练，就把人类数据塞进训练主脉。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3902

标签：具身智能, 机器人学习, 世界模型, 人类数据, 预训练

阅读完整文章

中国具身屠榜全球！10 万小时数据炸场，PI、英伟达集体破防

🤖 問 AI