← 回總覽

只靠头显和手柄,搞定全身动作高精度重建 | ICML'26

📅 2026-05-16 14:31 新智元 人工智能 2 分鐘 1464 字 評分: 86
MotionMAR 人体运动重建 稀疏观测 多尺度生成 VR/AR
📌 一句话摘要 MotionMAR 模型通过将人体运动视为多尺度过程,采用先粗后细的分层生成方式,仅凭头显和手柄的稀疏追踪数据,即可高精度重建全身 22 个关节的完整动作。 📝 详细摘要 本文介绍了由厦门大学与上海科技大学联合提出的 MotionMAR 模型,旨在解决 VR/AR 场景中仅靠头部和双手三个追踪点(6-DoF)进行全身运动重建的挑战。核心创新在于将人体运动视为一个多尺度过程,借鉴视觉自回归生成中的 coarse-to-fine 思路,先预测整体运动轮廓,再细化局部动作细节。模型由四个核心组件构成:TMT VQ-VAE 将连续运动序列映射到多尺度离散空间;SAC 将稀疏追踪信号

📌 一句话摘要

MotionMAR 模型通过将人体运动视为多尺度过程,采用先粗后细的分层生成方式,仅凭头显和手柄的稀疏追踪数据,即可高精度重建全身 22 个关节的完整动作。

📝 详细摘要

本文介绍了由厦门大学与上海科技大学联合提出的 MotionMAR 模型,旨在解决 VR/AR 场景中仅靠头部和双手三个追踪点(6-DoF)进行全身运动重建的挑战。核心创新在于将人体运动视为一个多尺度过程,借鉴视觉自回归生成中的 coarse-to-fine 思路,先预测整体运动轮廓,再细化局部动作细节。模型由四个核心组件构成:TMT VQ-VAE 将连续运动序列映射到多尺度离散空间;SAC 将稀疏追踪信号对齐到各尺度;MAN 执行 next-scale 预测,先粗后细地生成 token;MRN 在连续空间进行残差修正以提升平滑度。实验结果表明,在 AMASS 数据集的标准三点追踪设置下,MotionMAR 在 MPJRE、MPJPE、MPJVE 等多数指标上达到最优,且推理速度达 61.76 FPS,满足实时应用需求。该工作为轻量级动捕系统提供了新方向。

💡 主要观点

- MotionMAR 将人体运动视为多尺度过程,采用先粗后细的分层生成策略。 不同于传统逐帧预测方法,模型先生成整体运动轮廓(粗尺度),再逐步细化局部动作(细尺度),有效解决了稀疏观测下的姿态歧义性问题。

模型核心组件 TMT VQ-VAE 将连续运动序列映射到多尺度离散空间。 通过共享码本在三个时间尺度(T/4、T/2、T)上逐次量化,为自回归生成提供层次化的先验信息,是模型多尺度建模能力的基础。
MAN 网络采用 next-scale 预测方式,而非传统的 next-token 预测。 在同一尺度内并行预测 token,在不同尺度间保持自回归依赖,这种设计兼顾了生成效率与对全局结构的把握。
在 AMASS 数据集上,MotionMAR 在三点追踪设置下多数指标达到最优。 与现有方法相比,在手部和腿部等区域的重建精度更高,且推理速度达 61.76 FPS,满足实时 VR/AR 应用需求。

💬 文章金句

- 不要把动作当成一串平铺的时间帧来预测,而是像人类运动的物理直觉那样,从整体的大趋势到局部的小细节,采用分层的方式来进行生成。

  • MotionMAR 所提出的思路是非常巧妙的:人体动作本来就不是单尺度的平铺信号。
  • 当硬件设备只能够去看到极其有限的几个追踪点的时候,后端的软件模型必须要做到更懂人体运动的本身规律。

📊 文章信息

AI 初评:86

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3193

标签: MotionMAR, 人体运动重建, 稀疏观测, 多尺度生成, VR/AR

阅读完整文章

查看原文 → 發佈: 2026-05-16 14:31:00 收錄: 2026-05-16 18:00:56

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。