← 回總覽

国产免费 2B 开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

📅 2026-04-08 14:10 十三 人工智能 1 分鐘 1125 字 評分: 88
VoxCPM 2 语音合成 TTS 开源模型 面壁智能
📌 一句话摘要 面壁智能联合清华发布 VoxCPM 2 语音模型,凭借 2B 参数量实现 48kHz 高保真音质、30 种语言及 9 种方言的精准复刻与跨语言演绎。 📝 详细摘要 本文介绍了面壁智能、OpenBMB 开源社区与清华大学联合推出的升级版语音模型 VoxCPM 2。该模型仅有 2B 参数,却展现出极强的表现力,能精准复刻《莽撞人》等高难度贯口,并支持东北话、四川话等 9 种方言及 30 种外语。技术上,VoxCPM 2 摒弃了传统的 Token-based 方案,采用扩散自回归连续表征(Diffusion Autoregressive Continuous Representa

📌 一句话摘要

面壁智能联合清华发布 VoxCPM 2 语音模型,凭借 2B 参数量实现 48kHz 高保真音质、30 种语言及 9 种方言的精准复刻与跨语言演绎。

📝 详细摘要

本文介绍了面壁智能、OpenBMB 开源社区与清华大学联合推出的升级版语音模型 VoxCPM 2。该模型仅有 2B 参数,却展现出极强的表现力,能精准复刻《莽撞人》等高难度贯口,并支持东北话、四川话等 9 种方言及 30 种外语。技术上,VoxCPM 2 摒弃了传统的 Token-based 方案,采用扩散自回归连续表征(Diffusion Autoregressive Continuous Representation)架构,实现了隐式语义-声学解耦,极大保留了声音细节与情感。此外,模型支持 48000Hz CD 级音质,并全面开源权重与工具链,适配 LoRA 微调及多端部署。

💡 主要观点

- 采用扩散自回归连续表征架构,实现高保真语音生成。 不同于主流的 Token-based 方案,该架构通过端到端扩散直接生成连续语音表征,有效减少信息损失,保留了细腻的情感基调和方言特色。

具备极强的方言处理与跨语言演绎能力。 模型覆盖 9 种方言及 30 门外语,支持音色设计与克隆,能实现同一音色在不同语种间的无缝切换,并准确处理方言中的特殊发音。
2B 小参数量实现 48kHz CD 级音质输出。 延续 MiniCPM 系列的高密度小模型技术,在极低计算成本下将采样率提升至行业领先的 48000Hz,适用于游戏、影视等高品质音频场景。

💬 文章金句

- VoxCPM 2 采用扩散自回归连续表征,实现了隐式语义-声学的解耦。

  • 在音质方面,市面一般是 24000Hz,但 VoxCPM 2 这次直接拔高到了 48000Hz(CD 音质)!
  • 放眼全球范围内,目前除了基座大模型牢牢占据了开源领先地位,在小模型、端侧模型上,中国公司也在持续领先。

📊 文章信息

AI 评分:88

来源:量子位

作者:十三

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2373

标签: VoxCPM 2, 语音合成, TTS, 开源模型, 面壁智能

阅读完整文章

查看原文 → 發佈: 2026-04-08 14:10:06 收錄: 2026-04-08 16:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。