← 回總覽

中国具身屠榜全球!10 万小时数据炸场,PI、英伟达集体破防

📅 2026-04-12 10:01 新智元 人工智能 2 分鐘 1499 字 評分: 88
具身智能 机器人学习 世界模型 人类数据 预训练
📌 一句话摘要 灵初智能发布具身智能框架 PSI,利用近 10 万小时人类操作数据预训练策略模型 Psi-R2,并结合世界模型 Psi-W0 进行反事实推演,在 MolmoSpaces 榜单上超越 PI 和英伟达 GEAR 等主流方案。 📝 详细摘要 文章报道了灵初智能在具身智能领域的最新突破。针对遥操作数据成本高、采集慢的瓶颈,该公司提出利用海量人类操作数据进行机器人预训练的新路径。其核心是 PSI 框架,包含策略模型 Psi-R2 和世界模型 Psi-W0。Psi-R2 使用近 10 万小时人类数据和 5000 多小时真机数据进行预训练,学习任务策略;Psi-W0 则作为动作条件型世界

📌 一句话摘要

灵初智能发布具身智能框架 PSI,利用近 10 万小时人类操作数据预训练策略模型 Psi-R2,并结合世界模型 Psi-W0 进行反事实推演,在 MolmoSpaces 榜单上超越 PI 和英伟达 GEAR 等主流方案。

📝 详细摘要

文章报道了灵初智能在具身智能领域的最新突破。针对遥操作数据成本高、采集慢的瓶颈,该公司提出利用海量人类操作数据进行机器人预训练的新路径。其核心是 PSI 框架,包含策略模型 Psi-R2 和世界模型 Psi-W0。Psi-R2 使用近 10 万小时人类数据和 5000 多小时真机数据进行预训练,学习任务策略;Psi-W0 则作为动作条件型世界模型,通过推演失败样本和未来场景,为策略评估和动作迁移提供反事实能力。该方法在 MolmoSpaces 榜单上取得第一,超越了 PI 和英伟达 GEAR 等模型。文章深入分析了数据价值的核心在于信噪比、3D 位姿精度和作业节拍,并介绍了灵初在触觉信号处理和开源数据集方面的进展,描绘了一条从人类技能到机器人执行的完整训练路径。

💡 主要观点

- 利用海量人类操作数据是突破具身智能数据瓶颈的关键路径。 传统遥操作数据成本高、速度慢,难以支撑大规模训练。人类在真实作业中产生的海量、高精细操作数据,天然携带任务目标和节拍信息,是更丰富、更贴近产业需求的数据源。

PSI 框架通过策略模型与世界模型协同,解决了从人类数据到机器人执行的迁移难题。 Psi-R2 策略模型负责从成功的人类轨迹中学习‘怎么做’;Psi-W0 世界模型则通过推演失败和未来场景,提供反事实能力,用于策略评估和在‘梦境’中进行强化学习微调,将人类动作转化为机器人可执行的动作。
数据价值的核心在于信噪比、精度和节拍,而非单纯的数量。 对于具身智能,高价值数据的优先级是任务多样性 > 物体多样性 > 场景多样性;感知模态上,精准的 3D 位姿(亚毫米级)远高于 2D 图像特征。人类数据的节拍更接近真实 SOP,对产业落地至关重要。
在公开基准 MolmoSpaces 上超越主流方案,验证了技术路线的有效性。 Psi-R2 在该榜单总榜位列第一,整体表现超过具身大模型标杆 PI 以及英伟达的 GEAR 方案,表明其基于人类数据的预训练加世界模型微调的路径具有竞争力。

💬 文章金句

- 具身智能领域最近有一个心照不宣的焦虑:真机遥操作数据这条路,可能走不下去了。

  • 最后剩下的,反而是一条朴素的路线:Raw Data In, Raw Data Out。
  • Psi-R2 像‘会做题的学生’,Psi-W0 像一套能把过程重新推演的系统。
  • 决定数据价值的核心因素,不在数量本身,而在信噪比。
  • 灵初真正亮出来的,是一条完整的训练路径:当真机遥操作数据撑不起大规模预训练,就把人类数据塞进训练主脉。

📊 文章信息

AI 初评:88

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3902

标签: 具身智能, 机器人学习, 世界模型, 人类数据, 预训练

阅读完整文章

查看原文 → 發佈: 2026-04-12 10:01:00 收錄: 2026-04-12 18:00:47

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。