τ0-WM：最大规模预训练的开源具身世界模型来了

📌 一句话摘要

上海创智学院与智元机器人联合发布全球最大开源预训练具身世界模型 τ0-WM，以 1.78 万小时真机遥操作数据为核心，通过测试时计算实现机器人「三思而后行」的慢思考决策。

📝 详细摘要

本文报道了上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布的开源预训练具身世界模型 τ0-World Model（τ0-WM）。该模型参数量达 5B，预训练数据规模约 3 万小时，其中真机遥操作数据占 1.78 万小时，为全球开源最大。τ0-WM 的核心创新在于结合测试时计算，让机器人在执行前通过「提议-推演-评估与修正」三步流程，对多个候选动作进行排序和纠错，实现类似人类的慢思考。模型在工具收纳、书包装物等四个长程精细操作任务上，平均成功率超过对标模型 π0.5 和 Fast-WAM。文章还详细介绍了 τ0-WM 的数据体系，包括真机遥操作数据、UMI 数据和人类第一视角数据，以及如何通过模态特定监督掩码统一训练。该工作标志着具身智能领域首次将真机数据从后训练耗材转变为预训练燃料，打通了「预训练-真机部署-数据回流-再预训练」的完整链路。

💡 主要观点

- τ0-WM 是全球最大开源预训练具身世界模型，参数量 5B，预训练数据约 3 万小时。 其中真机遥操作数据占 1.78 万小时，首次将真机数据作为预训练主体，打破了行业对真机数据「太贵、太少、不可 scale」的固有认知。

模型通过测试时计算实现机器人「三思而后行」的慢思考决策。 推理分三步：VAM 提议多组候选动作，动作条件视频模拟器推演未来画面，RCS 打分与 LAR 修正后输出最优动作，让机器人基于未来后果而非即时反应做决策。

τ0-WM 采用模态特定监督掩码统一训练多源异构数据。 有动作标签的数据同时训练视频与动作，无动作标签的数据只训练视频分支，从而将真机遥操作、UMI 和人类第一视角数据揉进同一预训练体系。

该工作打通了具身智能「预训练-部署-数据回流-再预训练」的完整链路。 基于此前 SOP 数据采集基础设施和 LWD 强化学习后训练，真机数据积累跨过临界点后，从后训练耗材转变为预训练燃料，形成数据飞轮。

💬 文章金句

- τ0-WM 让机器人不再只是看到画面就立刻出手，而是像人一样，先在脑子里盘一遍哪种路线更靠谱，再决定真正怎么做。

对 τ0-WM 而言，'想象未来'不是训练技巧，而是机器人做决策的一部分。
真机数据终于开始从'后训练耗材'，变成'预训练燃料'。
具身智能里的'预训练---真机部署---数据回流---再预训练'这条链路，才第一次真正开始跑通。

📊 文章信息

AI 初评：88

来源：量子位

作者：衡宇

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4230

标签：具身智能, 世界模型, τ0-WM, 测试时计算, 真机数据

阅读完整文章

τ0-WM：最大规模预训练的开源具身世界模型来了

🤖 問 AI