李沐时隔一年，回归 B 站了！

📌 一句话摘要

李沐团队发布 Higgs Avatar v1，从静态图片生成实时对话数字人，让 AI 语音助手拥有实时反应的面部表情和口型同步。

📝 详细摘要

文章报道了李沐（Boson AI 联合创始人）时隔一年回归 B 站，发布 Higgs Avatar v1 实时数字人技术。该技术可从一张静态图片生成实时对话 Avatar，具备说话、聆听、表情和口型同步能力，且所有内容均为 AI 实时生成而非预录。文章指出，Higgs Avatar v1 与传统数字人不同，它更像是将「脸」接入语音智能体，实现实时交互而非内容生产。技术指标显示，完整 pipeline 可运行在单张 H100 上，单帧生成约 16ms，满足实时对话门槛，单卡最多支持 8 路并发。文章分析了该技术的潜在应用场景，包括客服、销售、培训、面试陪练等，并指出实时 Avatar 正在将 AI Agent 的界面从文本框、语音扩展到「面对面服务」的新维度。

💡 主要观点

- Higgs Avatar v1 可从静态图片生成实时对话数字人，支持表情和口型同步。 该技术不是预录视频，而是全 AI 实时生成，每一帧都是现场生成，让 AI 助手具备实时反应的面部交互能力。

实时数字人与传统数字人有本质区别，前者是实时交互，后者是内容生产。 传统数字人需要脚本生成视频，而实时 Avatar 在对话中实时生成声音、表情和反应，更像服务入口而非内容工具。

技术指标显示可部署性：单张 H100 可运行完整 pipeline，单帧生成约 16ms。 实时对话门槛约 62.5ms，单卡最多支持 8 路并发，表明该技术正向可部署的实时服务方向推进。

实时 Avatar 正在改变 AI Agent 的交互界面，从文本框、语音扩展到面对面服务。 实时面部交互让 AI 从工具按钮转变为服务窗口，适用于客服、销售、培训、面试陪练等需要面对面沟通的场景。

💬 文章金句

- 一个好的语音智能体，只解决了对话的一半。另一半，是脸。

过去数字人更像内容生产工具。你给它脚本，它帮你生成视频；现在实时 Avatar 更像服务入口。
AI Agent 的界面正在变。最早是文本框。后来是语音。现在开始有一张实时反应的脸。
让 AI 助手离「面对面服务」更近了一步。

📊 文章信息

AI 初评：86

来源：Datawhale

作者：Datawhale

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1668

标签：李沐, Higgs Avatar, 实时数字人, AI 语音助手, Boson AI

阅读完整文章

李沐时隔一年，回归 B 站了！

🤖 問 AI