只靠头显和手柄，搞定全身动作高精度重建

📌 一句话摘要

MotionMAR 模型通过将人体运动视为多尺度过程，采用先粗后细的分层生成方式，仅凭头显和手柄的稀疏追踪数据，即可高精度重建全身 22 个关节的完整动作。

📝 详细摘要

本文介绍了由厦门大学与上海科技大学联合提出的 MotionMAR 模型，旨在解决 VR/AR 场景中仅靠头部和双手三个追踪点（6-DoF）进行全身运动重建的挑战。核心创新在于将人体运动视为一个多尺度过程，借鉴视觉自回归生成中的 coarse-to-fine 思路，先预测整体运动轮廓，再细化局部动作细节。模型由四个核心组件构成：TMT VQ-VAE 将连续运动序列映射到多尺度离散空间；SAC 将稀疏追踪信号对齐到各尺度；MAN 执行 next-scale 预测，先粗后细地生成 token；MRN 在连续空间进行残差修正以提升平滑度。实验结果表明，在 AMASS 数据集的标准三点追踪设置下，MotionMAR 在 MPJRE、MPJPE、MPJVE 等多数指标上达到最优，且推理速度达 61.76 FPS，满足实时应用需求。该工作为轻量级动捕系统提供了新方向。

💡 主要观点

- MotionMAR 将人体运动视为多尺度过程，采用先粗后细的分层生成策略。 不同于传统逐帧预测方法，模型先生成整体运动轮廓（粗尺度），再逐步细化局部动作（细尺度），有效解决了稀疏观测下的姿态歧义性问题。

模型核心组件 TMT VQ-VAE 将连续运动序列映射到多尺度离散空间。 通过共享码本在三个时间尺度（T/4、T/2、T）上逐次量化，为自回归生成提供层次化的先验信息，是模型多尺度建模能力的基础。

MAN 网络采用 next-scale 预测方式，而非传统的 next-token 预测。 在同一尺度内并行预测 token，在不同尺度间保持自回归依赖，这种设计兼顾了生成效率与对全局结构的把握。

在 AMASS 数据集上，MotionMAR 在三点追踪设置下多数指标达到最优。 与现有方法相比，在手部和腿部等区域的重建精度更高，且推理速度达 61.76 FPS，满足实时 VR/AR 应用需求。

💬 文章金句

- 不要把动作当成一串平铺的时间帧来预测，而是像人类运动的物理直觉那样，从整体的大趋势到局部的小细节，采用分层的方式来进行生成。

MotionMAR 所提出的思路是非常巧妙的：人体动作本来就不是单尺度的平铺信号。
当硬件设备只能够去看到极其有限的几个追踪点的时候，后端的软件模型必须要做到更懂人体运动的本身规律。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3193

标签： MotionMAR, 人体运动重建, 稀疏观测, 多尺度生成, VR/AR

阅读完整文章

只靠头显和手柄，搞定全身动作高精度重建 | ICML'26

🤖 問 AI