本文是淘天 Meta 技术团队在 CCIG 2026 上的报告全文,系统介绍了基于 3D 高斯泼溅的 TaoAvatar 真人数字人技术体系,涵盖静态建模、可驱动重建、体积视频及在淘宝 Vision 中的落地应用。
📝 详细摘要
本文为淘天 Meta 技术团队受邀在中国图像图形大会(CCIG 2026)上发表的学术报告全文。文章首先概述了数字人的多元风格与应用场景,随后详细介绍了 TaoAvatar 技术体系的三类核心能力:TaoModel(3DGS 人体静态建模)、TaoAvatar(3DGS 可驱动数字人重建)和 TaoVideo(4DGS 人体体积视频)。在核心技术详解部分,文章深入阐述了基于 3D Gaussian Splatting 的真人数字人技术框架,包括真人体型和动作捕捉(基于 SMPLX++扩展)、真人动态重建(多服饰统一驱动)、以及真人语音驱动手势算法(GestureDiT + LLM)。文章还介绍了 TaoVideo-4DGS 体积视频方案,通过样条曲线描述高斯点运动与外观,实现复杂动态效果。在落地应用方面,文章展示了淘宝 Vision 在线上 App(荣获 Apple Design Awards)和线下未来旗舰店中的实践,以及伯希和虚拟服装店、米兰冬奥会服饰数字人等品牌合作案例。最后,文章展望了未来技术演进方向,包括基于单图/稀疏视角的低成本数字人生成方案(FHAvatar),并介绍了团队与招聘信息。
💡 主要观点
- TaoAvatar 基于 3D Gaussian Splatting,实现了高保真、可驱动的 3D 真人数字人。 方案集成了 3D 高斯重建、语音口唇驱动、身体姿态和手势驱动、端侧实时渲染及 LLM 推理引擎,核心指标达到 2K 分辨率、90 FPS 实时驱动、制作成本低于 2 万元、交付效率低于 1 周。
💬 文章金句
- TaoAvatar 是一套基于 3D Gaussian Splatting(3D 高斯泼溅技术)的 3D 真人数字人方案。它主要解决的是传统 3D 建模里几个比较典型的问题,比如计算量大、细节还原不够,以及在移动端运行比较困难。
- 从过去的'单人、单服装、单动作片段'的训练,升级到'单 ID、多服饰、多动作'的一体化建模。
📊 文章信息
AI 初评:86
来源:大淘宝技术
作者:大淘宝技术
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5020
标签: 3D数字人, 3D Gaussian Splatting, 计算机视觉, XR, AI应用