← 回總覽

OpenBMB 发布 VoxCPM 2:中国首个开源「扩散自回归」TTS 模型

📅 2026-04-08 18:51 meng shao 人工智能 1 分鐘 596 字 評分: 88
VoxCPM 2 OpenBMB TTS 语音合成 开源模型
📌 一句话摘要 OpenBMB 推出 2B 参数的开源语音合成模型 VoxCPM 2,采用创新的扩散自回归架构,支持声音设计与可控克隆。 📝 详细摘要 OpenBMB 正式发布 VoxCPM 2,这是中国首个基于「扩散自回归」架构的开源 TTS 模型。该模型拥有 2B 参数,经过 200 万小时数据训练,支持 30 种语言。相比传统的离散语音 token 方案,VoxCPM 2 采用连续隐空间生成,实现了语义与声学的深度解耦。其核心突破在于支持通过文本描述创造新声音(Voice Design)以及对克隆声音的风格、语速进行指令化调整。在性能上,其中文表现优于 Qwen3-TTS,并支持 4

📌 一句话摘要

OpenBMB 推出 2B 参数的开源语音合成模型 VoxCPM 2,采用创新的扩散自回归架构,支持声音设计与可控克隆。

📝 详细摘要

OpenBMB 正式发布 VoxCPM 2,这是中国首个基于「扩散自回归」架构的开源 TTS 模型。该模型拥有 2B 参数,经过 200 万小时数据训练,支持 30 种语言。相比传统的离散语音 token 方案,VoxCPM 2 采用连续隐空间生成,实现了语义与声学的深度解耦。其核心突破在于支持通过文本描述创造新声音(Voice Design)以及对克隆声音的风格、语速进行指令化调整。在性能上,其中文表现优于 Qwen3-TTS,并支持 48kHz 高保真输出,协议为 Apache-2.0,完全可商用。

📊 文章信息

AI 评分:88

来源:meng shao(@shao__meng)

作者:meng shao

分类:人工智能

语言:中文

阅读时间:3 分钟

字数:638

标签: VoxCPM 2, OpenBMB, TTS, 语音合成, 开源模型

阅读推文

查看原文 → 發佈: 2026-04-08 18:51:40 收錄: 2026-04-08 22:00:32

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。