CCIG 2026 | TaoAvatar：3D 真人数字人在淘宝 Vision 领域的应用

📌 一句话摘要

本文是淘天 Meta 技术团队在 CCIG 2026 上的报告全文，系统介绍了基于 3D 高斯泼溅的 TaoAvatar 真人数字人技术体系，涵盖静态建模、可驱动重建、体积视频及在淘宝 Vision 中的落地应用。

📝 详细摘要

本文为淘天 Meta 技术团队受邀在中国图像图形大会（CCIG 2026）上发表的学术报告全文。文章首先概述了数字人的多元风格与应用场景，随后详细介绍了 TaoAvatar 技术体系的三类核心能力：TaoModel（3DGS 人体静态建模）、TaoAvatar（3DGS 可驱动数字人重建）和 TaoVideo（4DGS 人体体积视频）。在核心技术详解部分，文章深入阐述了基于 3D Gaussian Splatting 的真人数字人技术框架，包括真人体型和动作捕捉（基于 SMPLX++扩展）、真人动态重建（多服饰统一驱动）、以及真人语音驱动手势算法（GestureDiT + LLM）。文章还介绍了 TaoVideo-4DGS 体积视频方案，通过样条曲线描述高斯点运动与外观，实现复杂动态效果。在落地应用方面，文章展示了淘宝 Vision 在线上 App（荣获 Apple Design Awards）和线下未来旗舰店中的实践，以及伯希和虚拟服装店、米兰冬奥会服饰数字人等品牌合作案例。最后，文章展望了未来技术演进方向，包括基于单图/稀疏视角的低成本数字人生成方案（FHAvatar），并介绍了团队与招聘信息。

💡 主要观点

- TaoAvatar 基于 3D Gaussian Splatting，实现了高保真、可驱动的 3D 真人数字人。 方案集成了 3D 高斯重建、语音口唇驱动、身体姿态和手势驱动、端侧实时渲染及 LLM 推理引擎，核心指标达到 2K 分辨率、90 FPS 实时驱动、制作成本低于 2 万元、交付效率低于 1 周。

通过 SMPLX++扩展和分层解耦监督，实现了高精度的真人体型和动作捕捉。 在 SMPLX 基础上增加头发和服饰的非刚性形变表达，并采用脸、手、身体分层监督与大小棚联动策略，平均 PVE 误差 6-7 毫米，精度优于开源 SOTA 框架 EasyMocap。

从单人单服饰升级到单 ID 多服饰一体化建模，实现跨服饰统一驱动。 通过人体部件 Parsing 和 UV 空间统一学习非刚性形变，不同服饰共享权重，最终将形变烘焙为端侧可运行的几何和高斯形变场，资产约 400MB，端侧可达 90 FPS。

TaoVideo-4DGS 方案不依赖显式人体模型，可重建任意服饰的复杂动态效果。 采用样条曲线描述高斯点的运动、外观和生命周期，并引入非均匀时间控制点，在质量和存储间取得平衡，PSNR 达 31-35，端侧渲染约 90 FPS。

淘宝 Vision 已实现线上 App 与线下旗舰店的规模化落地，并获 Apple Design Awards。 线上 App 提供 3D 沉浸式购物体验，线下旗舰店融合 AI+3D+XR 技术，已在多城市开业，并与伯希和、米兰冬奥会等品牌合作，验证了技术的商业价值。

💬 文章金句

- TaoAvatar 是一套基于 3D Gaussian Splatting（3D 高斯泼溅技术）的 3D 真人数字人方案。它主要解决的是传统 3D 建模里几个比较典型的问题，比如计算量大、细节还原不够，以及在移动端运行比较困难。

从过去的'单人、单服装、单动作片段'的训练，升级到'单 ID、多服饰、多动作'的一体化建模。

📊 文章信息

AI 初评：86

来源：大淘宝技术

作者：大淘宝技术

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5020

标签： 3D数字人, 3D Gaussian Splatting, 计算机视觉, XR, AI应用

阅读完整文章

CCIG 2026 | TaoAvatar：3D 真人数字人在淘宝 Vision 领域的应用

🤖 問 AI