Mistral AI 发布开源 TTS 模型 Voxtral,支持 3 秒零样本语音克隆与多语言迁移,可在移动端本地运行。
📝 详细摘要
Mistral AI 推出了其首个开源文本转语音(TTS)模型 Voxtral。该模型拥有 4B 参数,采用混合架构(自回归语义生成 + 流匹配声学生成)和自研 VQ-FSQ 编解码器,实现了极高的音质与低延迟(首包 90ms)。其核心亮点在于仅需 3 秒参考音频即可实现高质量克隆,支持 9 种语言的跨语言音色迁移,且在人类偏好测试中表现优于 ElevenLabs Flash v2.5。该模型设计初衷为适配手机和笔记本等边缘设备,为实时语音 Agent 提供了强大的本地化支持。
📊 文章信息
AI 评分:89
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:429
标签: Mistral AI, Voxtral, TTS, 语音克隆, 开源模型