Mistral 发布开源语音模型 Voxtral TTS，补齐语音全栈能力

techcrunch 2026-03-27 19:11 北京

首次音频生成延迟仅90毫秒，6倍实时因子，可在边缘设备上运行，成本大幅低于竞品。

图片来源：Getty Images

法国人工智能公司 Mistral 于周四发布了一款新的开源文本转语音模型，该模型可用于语音 AI 助手或客户支持等企业应用场景。这款模型允许企业构建用于销售和客户互动的语音助手，使 Mistral 直接与 ElevenLabs、Deepgram 和 OpenAI 等公司展开竞争。

这款名为 Voxtral TTS 的新模型支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

Mistral AI 科学运营副总裁皮埃尔·斯托克在电话采访中对 TechCrunch 表示：“我们的客户一直希望获得语音模型。因此我们构建了一款小型语音模型，能够适配智能手表、智能手机、笔记本电脑或其他边缘设备。其成本仅为市场上其他产品的零头，却能提供最先进的性能。”

!Image 4

图片来源：Mistral AI

Mistral 表示，这款新模型能够通过不到五秒的音频样本适配定制语音，并能捕捉细微口音、语调变化、声调起伏以及言语流中的不规则特征。该模型基于 Ministral 3B 架构，可轻松在不同语言间切换且不丢失语音特征，适用于配音或实时翻译等场景。Stock 指出，公司希望模型呈现人性化音色而非机械感。

据该公司介绍，该模型专为实时性能打造。其首次音频生成时间（TTFA）——即模型接收输入后开始"说话"的延迟——在处理 500 字符的 10 秒样本时仅为 90 毫秒。模型还具备 6 倍实时因子（RTF），这意味着渲染 10 秒音频片段仅需约 1.6 秒。

!Image 5

图片来源：Mistral AI

今年早些时候，Mistral 推出了两款转录模型，一款用于大规模批量处理，另一款则适用于低延迟的实时场景。通过这款新的语音模型，该公司很可能旨在为企业提供一套完整的语音产品。

“我们计划打造一个端到端的平台，能够处理包括音频、文本和图像在内的多模态输入流，并同样支持多模态输出。其主要优势在于，通过支持音频作为输入或输出的端到端智能体系统，你将能获取更丰富的信息，”斯托克表示。

Mistral 的定位在于其开源和可定制特性将帮助企业选择其语音模型而非竞争对手，因为他们可以按照自己的需求进行调整。

参考资料： https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/ **![Image 6](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247506405&idx=1&sn=29bdac1ee34aaceade9e66e9b0867d8f&scene=21#wechat_redirect)** ![Image 7](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247503698&idx=4&sn=ade3fdbb8a82ca59be3212c4843bb1a0&scene=21#wechat_redirect) ![Image 8](https://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247494663&idx=1&sn=8fab67231b9ebc593ac65864fd8f7e00&scene=21#wechat_redirect)

!Image 9

!Image 10

!Image 11 跳转微信打开

Mistral 发布开源语音模型 Voxtral TTS，补齐语音全栈能力

🤖 問 AI