MotionMAR 模型通过将人体运动视为多尺度过程,采用先粗后细的分层生成方式,仅凭头显和手柄的稀疏追踪数据,即可高精度重建全身 22 个关节的完整动作。
📝 详细摘要
本文介绍了由厦门大学与上海科技大学联合提出的 MotionMAR 模型,旨在解决 VR/AR 场景中仅靠头部和双手三个追踪点(6-DoF)进行全身运动重建的挑战。核心创新在于将人体运动视为一个多尺度过程,借鉴视觉自回归生成中的 coarse-to-fine 思路,先预测整体运动轮廓,再细化局部动作细节。模型由四个核心组件构成:TMT VQ-VAE 将连续运动序列映射到多尺度离散空间;SAC 将稀疏追踪信号对齐到各尺度;MAN 执行 next-scale 预测,先粗后细地生成 token;MRN 在连续空间进行残差修正以提升平滑度。实验结果表明,在 AMASS 数据集的标准三点追踪设置下,MotionMAR 在 MPJRE、MPJPE、MPJVE 等多数指标上达到最优,且推理速度达 61.76 FPS,满足实时应用需求。该工作为轻量级动捕系统提供了新方向。
💡 主要观点
- MotionMAR 将人体运动视为多尺度过程,采用先粗后细的分层生成策略。 不同于传统逐帧预测方法,模型先生成整体运动轮廓(粗尺度),再逐步细化局部动作(细尺度),有效解决了稀疏观测下的姿态歧义性问题。
💬 文章金句
- 不要把动作当成一串平铺的时间帧来预测,而是像人类运动的物理直觉那样,从整体的大趋势到局部的小细节,采用分层的方式来进行生成。
- MotionMAR 所提出的思路是非常巧妙的:人体动作本来就不是单尺度的平铺信号。
- 当硬件设备只能够去看到极其有限的几个追踪点的时候,后端的软件模型必须要做到更懂人体运动的本身规律。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3193
标签: MotionMAR, 人体运动重建, 稀疏观测, 多尺度生成, VR/AR