SentiPulse 携手人大高瓴：开源交互式 3D 数字人框架 SentiAvatar，领跑行业主流模型

📌 一句话摘要

SentiPulse 联合人大高瓴开源 SentiAvatar 框架，通过自研数据集与双通道并行架构，解决了 3D 数字人动作与语义脱节的行业痛点。

📝 详细摘要

本文介绍了由 SentiPulse（思维光谱）与中国人民大学高瓴人工智能学院联合发布的 SentiAvatar 交互式 3D 数字人框架。该框架针对数字人交互中的「机械感」和「音画脱节」问题，推出了包含 37 小时多模态对话语料的 SuSuInterActs 数据集，并构建了动作基础模型（Motion Foundation Model）。技术上，SentiAvatar 创新性地采用 plan-then-infill 双通道架构，将语义规划与逐帧动作填充结合，实现了 0.3 秒内生成 6 秒动作的高效性能，在 BEATv2 等权威基准测试中刷新了 SOTA 纪录。目前该项目已在 GitHub 全面开源。

💡 主要观点

- 提出 plan-then-infill 双通道并行架构，实现动作与表情的解耦生成。 第一阶段通过 LLM 规划关键帧动作 Token，第二阶段利用 Body Infill Transformer 进行逐帧特征填充，确保了动作的连贯性与实时流式交互能力。

发布高质量中文多模态对话数据集 SuSuInterActs，填补行业空白。 该数据集包含 37 小时涵盖语音、文本行为标注、全身动作及面部表情的同步语料，为训练具备「灵魂」的数字人提供了底层支撑。

模型具备极强的泛化能力与实时性，多项指标达成 SOTA。 在跨语言测试集 BEATv2 上刷新纪录，且支持 0.3 秒极低延迟生成，解决了数字人交互卡顿的长期瓶颈。

💬 文章金句

- 真正卡住数字人产业发展天花板的，从来不是视觉层面的「不像人」，而是其始终未能构建起与人类相似自然的表达能力。

SentiAvatar 实现了在 0.3 秒内生成 6 秒动作序列，支持无限轮次的流式交互。
这三道枷锁，把数字人困在「预设脚本播放机器」的定位里，始终迈不开从「能说话」、「能动」到「懂交流」的关键一步。

📊 文章信息

AI 评分：89

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1844

标签： 3D 数字人, SentiAvatar, 多模态大模型, 动作生成, 开源框架

阅读完整文章

SentiPulse 携手人大高瓴：开源交互式 3D 数字人框架 SentiAvatar，领跑行业主流模型

🤖 問 AI