Mistral AI 开源首个 TTS 模型 Voxtral：4B 参数实现 3 秒语音克隆

📅 2026-04-09 21:21 meng shao 人工智能 1 分鐘 586 字評分: 89

📌 一句话摘要 Mistral AI 发布开源 TTS 模型 Voxtral，支持 3 秒零样本语音克隆与多语言迁移，可在移动端本地运行。 📝 详细摘要 Mistral AI 推出了其首个开源文本转语音（TTS）模型 Voxtral。该模型拥有 4B 参数，采用混合架构（自回归语义生成 + 流匹配声学生成）和自研 VQ-FSQ 编解码器，实现了极高的音质与低延迟（首包 90ms）。其核心亮点在于仅需 3 秒参考音频即可实现高质量克隆，支持 9 种语言的跨语言音色迁移，且在人类偏好测试中表现优于 ElevenLabs Flash v2.5。该模型设计初衷为适配手机和笔记本等边缘设备，为实时语

📌 一句话摘要

Mistral AI 发布开源 TTS 模型 Voxtral，支持 3 秒零样本语音克隆与多语言迁移，可在移动端本地运行。

📝 详细摘要

Mistral AI 推出了其首个开源文本转语音（TTS）模型 Voxtral。该模型拥有 4B 参数，采用混合架构（自回归语义生成 + 流匹配声学生成）和自研 VQ-FSQ 编解码器，实现了极高的音质与低延迟（首包 90ms）。其核心亮点在于仅需 3 秒参考音频即可实现高质量克隆，支持 9 种语言的跨语言音色迁移，且在人类偏好测试中表现优于 ElevenLabs Flash v2.5。该模型设计初衷为适配手机和笔记本等边缘设备，为实时语音 Agent 提供了强大的本地化支持。

📊 文章信息

AI 评分：89

来源：meng shao(@shao__meng)

作者：meng shao

分类：人工智能

语言：中文

阅读时间：2 分钟

字数：429

标签： Mistral AI, Voxtral, TTS, 语音克隆, 开源模型

阅读推文

查看原文 → 發佈: 2026-04-09 21:21:53 收錄: 2026-04-10 00:00:37

Mistral AI 开源首个 TTS 模型 Voxtral：4B 参数实现 3 秒语音克隆

🤖 問 AI