← 回總覽

头号玩家照进现实!NTU 发布世界模型交互新范式,攻克主动操作难题

📅 2026-04-14 12:30 新智元 人工智能 2 分鐘 1660 字 評分: 88
世界模型 手势交互 第一人称视频生成 具身智能 南洋理工大学
📌 一句话摘要 南洋理工大学 MMLab 团队提出 Hand2World 方法,通过 3D 手部结构与射线编码解耦手与头运动,实现了基于手势的、可闭环持续交互的第一人称世界模型,为 AR 和机器人交互铺路。 📝 详细摘要 文章介绍了南洋理工大学 MMLab 团队最新发布的研究 Hand2World,该工作旨在解决当前世界模型(如 Sora、Genie 3)只能被动观察而无法主动交互的核心难题。Hand2World 允许用户仅通过在空中比划手势,即可让 AI 生成手伸入静态场景(如抓杯子、翻书)的逼真第一人称交互视频,并支持实时调整手势的闭环交互。其核心创新在于:1)摒弃了易导致分布错配的

📌 一句话摘要

南洋理工大学 MMLab 团队提出 Hand2World 方法,通过 3D 手部结构与射线编码解耦手与头运动,实现了基于手势的、可闭环持续交互的第一人称世界模型,为 AR 和机器人交互铺路。

📝 详细摘要

文章介绍了南洋理工大学 MMLab 团队最新发布的研究 Hand2World,该工作旨在解决当前世界模型(如 Sora、Genie 3)只能被动观察而无法主动交互的核心难题。Hand2World 允许用户仅通过在空中比划手势,即可让 AI 生成手伸入静态场景(如抓杯子、翻书)的逼真第一人称交互视频,并支持实时调整手势的闭环交互。其核心创新在于:1)摒弃了易导致分布错配的 2D 手部 mask,转而使用从单目视频恢复的完整 3D 手部 mesh 作为遮挡不变的统一控制信号;2)引入 Plücker 射线嵌入显式编码相机运动,成功解耦了手部关节运动与佩戴者头部转动,解决了背景漂移问题;3)通过蒸馏技术将模型转化为因果自回归生成器,支持流式输出与无限续写。该方法在多个数据集上取得显著性能提升,并配套开发了全自动单目视频标注流水线,为具身智能的大规模数据收集提供了可扩展方案。

💡 主要观点

- Hand2World 攻克了世界模型从被动观察到主动交互的关键瓶颈。 现有世界模型(如 Sora)缺乏交互能力,Hand2World 通过引入手势作为交互接口,实现了用户手势驱动场景内物体交互的视频生成,使模型从“看世界”迈向“触碰世界”。

采用 3D 手部 mesh 替代 2D mask,解决了训练与推理的分布错配问题。 传统方法因训练数据中手部被物体遮挡(mask 残缺)而无法处理完整手势输入。Hand2World 使用完整的 3D 手部结构作为控制信号,格式统一且遮挡不变,将遮挡关系的推断交给生成模型。
通过 Plücker 射线编码显式解耦手部运动与相机运动,消除了背景漂移。 第一人称视频中手部与头部运动在画面上纠缠,导致模型混淆。该方法通过轻量级 adapter 注入射线嵌入,清晰分离了两种运动,使生成的背景保持稳定。
实现了从数据标注到闭环生成的完整、可扩展的系统。 不仅提出了生成模型,还配套开发了全自动的单目视频标注流水线,无需多目相机或人工标注,极大降低了数据获取门槛,为后续大规模训练奠定了基础。

💬 文章金句

- 当下的世界模型已经拥有了「眼睛」和「腿」------能感知环境、能移动视角,却始终缺少一双「手」。

  • Hand2World 彻底抛弃了 2D mask。它从单目视频中恢复完整的 3D 手部 mesh(MANO 模型),投影到图像平面,渲染为「填充轮廓 + 线框叠层」的复合信号。
  • 关键 insight:遮挡关系不是硬编码在输入信号里的,而是交给生成模型根据场景上下文自行推断。
  • Hand2World 用逐像素的 Plücker 射线嵌入显式编码相机运动,通过一个轻量级 adapter 以加法方式注入扩散模型。这一招将手部关节运动和头部自运动彻底解耦。
  • 这意味着任何一段现成的 egocentric 视频都可以被转化为训练信号------为具身智能的大规模数据收集提供了真正可扩展的方案

📊 文章信息

AI 初评:88

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2109

标签: 世界模型, 手势交互, 第一人称视频生成, 具身智能, 南洋理工大学

阅读完整文章

查看原文 → 發佈: 2026-04-14 12:30:00 收錄: 2026-04-14 18:00:40

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。