SentiPulse 联合人大高瓴开源 SentiAvatar 框架,通过自研数据集与双通道并行架构,解决了 3D 数字人动作与语义脱节的行业痛点。
📝 详细摘要
本文介绍了由 SentiPulse(思维光谱)与中国人民大学高瓴人工智能学院联合发布的 SentiAvatar 交互式 3D 数字人框架。该框架针对数字人交互中的「机械感」和「音画脱节」问题,推出了包含 37 小时多模态对话语料的 SuSuInterActs 数据集,并构建了动作基础模型(Motion Foundation Model)。技术上,SentiAvatar 创新性地采用 plan-then-infill 双通道架构,将语义规划与逐帧动作填充结合,实现了 0.3 秒内生成 6 秒动作的高效性能,在 BEATv2 等权威基准测试中刷新了 SOTA 纪录。目前该项目已在 GitHub 全面开源。
💡 主要观点
- 提出 plan-then-infill 双通道并行架构,实现动作与表情的解耦生成。 第一阶段通过 LLM 规划关键帧动作 Token,第二阶段利用 Body Infill Transformer 进行逐帧特征填充,确保了动作的连贯性与实时流式交互能力。
💬 文章金句
- 真正卡住数字人产业发展天花板的,从来不是视觉层面的「不像人」,而是其始终未能构建起与人类相似自然的表达能力。
- SentiAvatar 实现了在 0.3 秒内生成 6 秒动作序列,支持无限轮次的流式交互。
- 这三道枷锁,把数字人困在「预设脚本播放机器」的定位里,始终迈不开从「能说话」、「能动」到「懂交流」的关键一步。
📊 文章信息
AI 评分:89
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1844
标签: 3D 数字人, SentiAvatar, 多模态大模型, 动作生成, 开源框架