思考 World Action Model！从 Masked World Model 到 Fast WAM 与 Cosmos Policy

📌 一句话摘要

本文从一篇预测 Mask 而非 RGB 的 ICML 论文出发，深入探讨了 World Model 加速与简化的思想脉络，提出了 FastWAM 的构想，并与 Cosmos Policy 进行了对比分析。

📝 详细摘要

文章以一篇 ICML 论文（Masked World Model）为引，作者深入思考了其通过预测语义 Mask 而非原始 RGB 来提升鲁棒性的本质：即简化背景、聚焦关键物体，并引入了一个语义剖析的多任务学习目标。基于此，作者进一步推演了加速 World Model 的思路，提出了 FastWAM 的构想：通过逐步降低预测目标的分辨率（RGB -> Mask -> 骨架），最终直接预测低维度的 Action，从而实现极致的推理加速，并解释了其与 Video DiT 的继承关系。文章还将此思路与 NVIDIA 的 Cosmos Policy 进行了对比，分析了后者将 Action、RGB、Value 等多任务学习统一于一个重型 Video Backbone 的野心与面临的训练挑战。全文展现了作者对机器人学习领域前沿架构的深刻理解和独立思辨。

💡 主要观点

- Masked World Model 的本质是简化与聚焦，而非单纯的背景去除。 预测 Mask 迫使模型更关注机器人本体和任务相关物体，降低了 World Model 的预测复杂度，同时引入语义分割作为多任务监督，共同提升了鲁棒性。

从预测 RGB 到直接预测 Action 是一条清晰的模型加速路径。 作者构思了 FastWAM：通过逐步抽象预测目标（RGB -> Mask -> 骨架 -> Action），在保证决策所需信息的前提下，极大降低计算开销，实现推理加速。

Cosmos Policy 代表了另一种统一多任务学习的重型架构思路。 NVIDIA 的 Cosmos Policy 试图用一个庞大的 Video DiT Backbone 同时处理 Action、RGB、Proprioception 和 Value 预测，旨在构建物理世界的通用 Backbone，但面临训练不稳定等挑战。

未来 World Action Model 的关键在于权衡不同架构的优劣。 FastWAM 的极简高效与 Cosmos Policy 的统一强大各有 trade-off，如何融合百家之长是下一代模型需要解决的重要问题。

💬 文章金句

- 所谓的减少环境背景的影响，实则是增加了对机器人本体、物体的一个权重，让后面的无论 IDM，或者 action head 更容易关注到机器人的动态，并且让 world model 在预测未来时考虑的东西变得更少。

终于，我们加速到极致，推出了 FastWAM 的核心观点：我直接用 MoT 根据单帧 RGB 预测 action，我并不是没有做 world model prediction，而是 world model prediction 被直接结构化、抽象化，曾经的 RGB 变成了 Action。
如果说 Masked World Model 是让模型做语义+动作的 multi-task learning，Cosmos Policy 就相当于强迫整个 Video DiT 去同时做 action、proprio、rgb 和 value 的 multi-task learning。
总之这么多变量的存在就让 cosmos policy 的 video backbone 在做一个巨大的 multi-task learning。也是可以看出 nvidia 组很有野心，想要通过这个架构做一个物理世界的 AGI backbone 这样子。

📊 文章信息

AI 初评：87

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2380

标签： World Model, 机器人学习, 强化学习, 模型加速, 多任务学习

阅读完整文章

思考 World Action Model！从 Masked World Model 到 Fast WAM 与 Cosmos Policy

🤖 問 AI