OpenBMB 推出 2B 参数的开源语音合成模型 VoxCPM 2,采用创新的扩散自回归架构,支持声音设计与可控克隆。
📝 详细摘要
OpenBMB 正式发布 VoxCPM 2,这是中国首个基于「扩散自回归」架构的开源 TTS 模型。该模型拥有 2B 参数,经过 200 万小时数据训练,支持 30 种语言。相比传统的离散语音 token 方案,VoxCPM 2 采用连续隐空间生成,实现了语义与声学的深度解耦。其核心突破在于支持通过文本描述创造新声音(Voice Design)以及对克隆声音的风格、语速进行指令化调整。在性能上,其中文表现优于 Qwen3-TTS,并支持 48kHz 高保真输出,协议为 Apache-2.0,完全可商用。
📊 文章信息
AI 评分:88
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:3 分钟
字数:638
标签: VoxCPM 2, OpenBMB, TTS, 语音合成, 开源模型