← 回總覽

Mistral AI 开源首个 TTS 模型 Voxtral:4B 参数实现 3 秒语音克隆

📅 2026-04-09 21:21 meng shao 人工智能 1 分鐘 586 字 評分: 89
Mistral AI Voxtral TTS 语音克隆 开源模型
📌 一句话摘要 Mistral AI 发布开源 TTS 模型 Voxtral,支持 3 秒零样本语音克隆与多语言迁移,可在移动端本地运行。 📝 详细摘要 Mistral AI 推出了其首个开源文本转语音(TTS)模型 Voxtral。该模型拥有 4B 参数,采用混合架构(自回归语义生成 + 流匹配声学生成)和自研 VQ-FSQ 编解码器,实现了极高的音质与低延迟(首包 90ms)。其核心亮点在于仅需 3 秒参考音频即可实现高质量克隆,支持 9 种语言的跨语言音色迁移,且在人类偏好测试中表现优于 ElevenLabs Flash v2.5。该模型设计初衷为适配手机和笔记本等边缘设备,为实时语

📌 一句话摘要

Mistral AI 发布开源 TTS 模型 Voxtral,支持 3 秒零样本语音克隆与多语言迁移,可在移动端本地运行。

📝 详细摘要

Mistral AI 推出了其首个开源文本转语音(TTS)模型 Voxtral。该模型拥有 4B 参数,采用混合架构(自回归语义生成 + 流匹配声学生成)和自研 VQ-FSQ 编解码器,实现了极高的音质与低延迟(首包 90ms)。其核心亮点在于仅需 3 秒参考音频即可实现高质量克隆,支持 9 种语言的跨语言音色迁移,且在人类偏好测试中表现优于 ElevenLabs Flash v2.5。该模型设计初衷为适配手机和笔记本等边缘设备,为实时语音 Agent 提供了强大的本地化支持。

📊 文章信息

AI 评分:89

来源:meng shao(@shao__meng)

作者:meng shao

分类:人工智能

语言:中文

阅读时间:2 分钟

字数:429

标签: Mistral AI, Voxtral, TTS, 语音克隆, 开源模型

阅读推文

查看原文 → 發佈: 2026-04-09 21:21:53 收錄: 2026-04-10 00:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。