头号玩家照进现实！NTU 发布世界模型交互新范式，攻克主动操作难题

📌 一句话摘要

南洋理工大学 MMLab 团队提出 Hand2World 方法，通过 3D 手部结构与射线编码解耦手与头运动，实现了基于手势的、可闭环持续交互的第一人称世界模型，为 AR 和机器人交互铺路。

📝 详细摘要

文章介绍了南洋理工大学 MMLab 团队最新发布的研究 Hand2World，该工作旨在解决当前世界模型（如 Sora、Genie 3）只能被动观察而无法主动交互的核心难题。Hand2World 允许用户仅通过在空中比划手势，即可让 AI 生成手伸入静态场景（如抓杯子、翻书）的逼真第一人称交互视频，并支持实时调整手势的闭环交互。其核心创新在于：1）摒弃了易导致分布错配的 2D 手部 mask，转而使用从单目视频恢复的完整 3D 手部 mesh 作为遮挡不变的统一控制信号；2）引入 Plücker 射线嵌入显式编码相机运动，成功解耦了手部关节运动与佩戴者头部转动，解决了背景漂移问题；3）通过蒸馏技术将模型转化为因果自回归生成器，支持流式输出与无限续写。该方法在多个数据集上取得显著性能提升，并配套开发了全自动单目视频标注流水线，为具身智能的大规模数据收集提供了可扩展方案。

💡 主要观点

- Hand2World 攻克了世界模型从被动观察到主动交互的关键瓶颈。 现有世界模型（如 Sora）缺乏交互能力，Hand2World 通过引入手势作为交互接口，实现了用户手势驱动场景内物体交互的视频生成，使模型从“看世界”迈向“触碰世界”。

采用 3D 手部 mesh 替代 2D mask，解决了训练与推理的分布错配问题。 传统方法因训练数据中手部被物体遮挡（mask 残缺）而无法处理完整手势输入。Hand2World 使用完整的 3D 手部结构作为控制信号，格式统一且遮挡不变，将遮挡关系的推断交给生成模型。

通过 Plücker 射线编码显式解耦手部运动与相机运动，消除了背景漂移。 第一人称视频中手部与头部运动在画面上纠缠，导致模型混淆。该方法通过轻量级 adapter 注入射线嵌入，清晰分离了两种运动，使生成的背景保持稳定。

实现了从数据标注到闭环生成的完整、可扩展的系统。 不仅提出了生成模型，还配套开发了全自动的单目视频标注流水线，无需多目相机或人工标注，极大降低了数据获取门槛，为后续大规模训练奠定了基础。

💬 文章金句

- 当下的世界模型已经拥有了「眼睛」和「腿」------能感知环境、能移动视角，却始终缺少一双「手」。

Hand2World 彻底抛弃了 2D mask。它从单目视频中恢复完整的 3D 手部 mesh（MANO 模型），投影到图像平面，渲染为「填充轮廓 + 线框叠层」的复合信号。
关键 insight：遮挡关系不是硬编码在输入信号里的，而是交给生成模型根据场景上下文自行推断。
Hand2World 用逐像素的 Plücker 射线嵌入显式编码相机运动，通过一个轻量级 adapter 以加法方式注入扩散模型。这一招将手部关节运动和头部自运动彻底解耦。
这意味着任何一段现成的 egocentric 视频都可以被转化为训练信号------为具身智能的大规模数据收集提供了真正可扩展的方案。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2109

标签：世界模型, 手势交互, 第一人称视频生成, 具身智能, 南洋理工大学

阅读完整文章

头号玩家照进现实！NTU 发布世界模型交互新范式，攻克主动操作难题

🤖 問 AI