国产免费 2B 开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

📌 一句话摘要

面壁智能联合清华发布 VoxCPM 2 语音模型，凭借 2B 参数量实现 48kHz 高保真音质、30 种语言及 9 种方言的精准复刻与跨语言演绎。

📝 详细摘要

本文介绍了面壁智能、OpenBMB 开源社区与清华大学联合推出的升级版语音模型 VoxCPM 2。该模型仅有 2B 参数，却展现出极强的表现力，能精准复刻《莽撞人》等高难度贯口，并支持东北话、四川话等 9 种方言及 30 种外语。技术上，VoxCPM 2 摒弃了传统的 Token-based 方案，采用扩散自回归连续表征（Diffusion Autoregressive Continuous Representation）架构，实现了隐式语义-声学解耦，极大保留了声音细节与情感。此外，模型支持 48000Hz CD 级音质，并全面开源权重与工具链，适配 LoRA 微调及多端部署。

💡 主要观点

- 采用扩散自回归连续表征架构，实现高保真语音生成。 不同于主流的 Token-based 方案，该架构通过端到端扩散直接生成连续语音表征，有效减少信息损失，保留了细腻的情感基调和方言特色。

具备极强的方言处理与跨语言演绎能力。 模型覆盖 9 种方言及 30 门外语，支持音色设计与克隆，能实现同一音色在不同语种间的无缝切换，并准确处理方言中的特殊发音。

2B 小参数量实现 48kHz CD 级音质输出。 延续 MiniCPM 系列的高密度小模型技术，在极低计算成本下将采样率提升至行业领先的 48000Hz，适用于游戏、影视等高品质音频场景。

💬 文章金句

- VoxCPM 2 采用扩散自回归连续表征，实现了隐式语义-声学的解耦。

在音质方面，市面一般是 24000Hz，但 VoxCPM 2 这次直接拔高到了 48000Hz（CD 音质）！
放眼全球范围内，目前除了基座大模型牢牢占据了开源领先地位，在小模型、端侧模型上，中国公司也在持续领先。

📊 文章信息

AI 评分：88

来源：量子位

作者：十三

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2373

标签： VoxCPM 2, 语音合成, TTS, 开源模型, 面壁智能

阅读完整文章

国产免费 2B 开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

🤖 問 AI