← 回總覽

SentiPulse 携手人大高瓴:开源交互式 3D 数字人框架 SentiAvatar,领跑行业主流模型

📅 2026-04-08 16:30 量子位的朋友们 人工智能 1 分鐘 1199 字 評分: 89
3D 数字人 SentiAvatar 多模态大模型 动作生成 开源框架
📌 一句话摘要 SentiPulse 联合人大高瓴开源 SentiAvatar 框架,通过自研数据集与双通道并行架构,解决了 3D 数字人动作与语义脱节的行业痛点。 📝 详细摘要 本文介绍了由 SentiPulse(思维光谱)与中国人民大学高瓴人工智能学院联合发布的 SentiAvatar 交互式 3D 数字人框架。该框架针对数字人交互中的「机械感」和「音画脱节」问题,推出了包含 37 小时多模态对话语料的 SuSuInterActs 数据集,并构建了动作基础模型(Motion Foundation Model)。技术上,SentiAvatar 创新性地采用 plan-then-infil

📌 一句话摘要

SentiPulse 联合人大高瓴开源 SentiAvatar 框架,通过自研数据集与双通道并行架构,解决了 3D 数字人动作与语义脱节的行业痛点。

📝 详细摘要

本文介绍了由 SentiPulse(思维光谱)与中国人民大学高瓴人工智能学院联合发布的 SentiAvatar 交互式 3D 数字人框架。该框架针对数字人交互中的「机械感」和「音画脱节」问题,推出了包含 37 小时多模态对话语料的 SuSuInterActs 数据集,并构建了动作基础模型(Motion Foundation Model)。技术上,SentiAvatar 创新性地采用 plan-then-infill 双通道架构,将语义规划与逐帧动作填充结合,实现了 0.3 秒内生成 6 秒动作的高效性能,在 BEATv2 等权威基准测试中刷新了 SOTA 纪录。目前该项目已在 GitHub 全面开源。

💡 主要观点

- 提出 plan-then-infill 双通道并行架构,实现动作与表情的解耦生成。 第一阶段通过 LLM 规划关键帧动作 Token,第二阶段利用 Body Infill Transformer 进行逐帧特征填充,确保了动作的连贯性与实时流式交互能力。

发布高质量中文多模态对话数据集 SuSuInterActs,填补行业空白。 该数据集包含 37 小时涵盖语音、文本行为标注、全身动作及面部表情的同步语料,为训练具备「灵魂」的数字人提供了底层支撑。
模型具备极强的泛化能力与实时性,多项指标达成 SOTA。 在跨语言测试集 BEATv2 上刷新纪录,且支持 0.3 秒极低延迟生成,解决了数字人交互卡顿的长期瓶颈。

💬 文章金句

- 真正卡住数字人产业发展天花板的,从来不是视觉层面的「不像人」,而是其始终未能构建起与人类相似自然的表达能力。

  • SentiAvatar 实现了在 0.3 秒内生成 6 秒动作序列,支持无限轮次的流式交互。
  • 这三道枷锁,把数字人困在「预设脚本播放机器」的定位里,始终迈不开从「能说话」、「能动」到「懂交流」的关键一步。

📊 文章信息

AI 评分:89

来源:量子位

作者:量子位的朋友们

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1844

标签: 3D 数字人, SentiAvatar, 多模态大模型, 动作生成, 开源框架

阅读完整文章

查看原文 → 發佈: 2026-04-08 16:30:38 收錄: 2026-04-08 18:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。