Mistral AI 发布了 Voxtral TTS,这是一款 3.8B 参数的开源权重多语言语音生成模型,利用创新的自回归流匹配(auto-regressive flow-matching)架构,实现了高质量、低延迟的性能。
📝 详细摘要
Mistral AI 推出了其首款语音生成模型 Voxtral TTS,标志着向实时语音智能体迈出了重要一步。该模型基于 3.8B 参数骨干网络,支持九种语言,在质量上可媲美 ElevenLabs 等专有解决方案,同时提供了更低的成本和开放的权重。在技术上,Voxtral 采用了一种独特的架构,将自回归语义 token 生成与声学 token 的流匹配相结合,并通过自定义神经音频编解码器进行处理。与传统的扩散模型相比,这种方法能以更少的推理步骤实现高保真音频合成。除了模型本身,Mistral 还强调了其 Forge 平台,使企业能够在私有数据上对这些模型进行微调,以适应特定领域,从而确保通用闭源模型无法比拟的隐私性和性能。
💡 主要观点
- Voxtral TTS 引入了一种混合架构,结合了自回归建模与流匹配。 该模型以自回归方式生成语义语音 token,同时对声学 token 使用流匹配。这种技术在图像生成中更为常见,在此处实现了以更少的推理步骤生成高质量音频。
💬 文章金句
- Mistral 虽然不能直说,但基准测试确实暗示了这一点:这基本上是一个 ElevenLabs 级别的开源权重 TTS 模型。
- 我们所做的不同之处在于,我们没有采用这种自回归 K 步预测,而是使用了一个流匹配模型。
- 我们最终想要做的是构建这种双工模型,但我们不会直接从那里开始。
- 流匹配头本身……我们能够大幅精简它。因此,我们能够以 4 步或 16 步进行推理,而且效果非常好。
📊 文章信息
AI 评分:91
来源:Latent Space
作者:Latent.Space
分类:人工智能
语言:英文
阅读时间:45 分钟
字数:11090
标签: Mistral AI, Voxtral TTS, 语音合成, 流匹配, 开源权重