Mistral AI 刚刚发布了一款号称超越 ElevenLabs 的文本转语音模型，并免费开放权重

📌 一句话摘要

Mistral AI 推出了 Voxtral TTS，这是一款专为企业自托管设计的高性能开放权重文本转语音模型，旨在通过提供卓越的控制力、更低的成本和数据主权，挑战 ElevenLabs 等专有模型领导者。

📝 详细摘要

Mistral AI 推出了 Voxtral TTS，这是一款拥有 30 亿参数的开放权重文本转语音模型，声称在语音定制和情感表达方面优于 ElevenLabs。与行业标准的 API 优先模式不同，Voxtral TTS 专为企业自托管而设计，允许公司在本地硬件（包括笔记本电脑和智能手机）上运行，延迟仅为 90ms。此次发布是 Mistral 完善其“全栈 AI”（包括 Forge 和 AI Studio）战略的关键一步，强调了数据主权和成本效益。通过提供开放权重，Mistral 将目标锁定在金融和医疗等对语音数据有严格控制要求的行业，将自己定位为专有语音 AI 提供商的可行替代方案。

💡 主要观点

- Mistral AI 的 Voxtral TTS 挑战了语音 AI 领域专有的 API 优先模式。 通过发布模型权重，Mistral 使企业能够在本地托管语音 AI，从而确保数据主权，并降低与基于订阅的服务相比的长期成本。

技术效率是该 30 亿参数模型的核心特征。 该模型针对边缘部署进行了优化，在笔记本电脑和智能手机等标准硬件上实现了 90ms 的延迟和 6 倍于实时速度的生成速度。

战略性集成到完整的企业级 AI 技术栈中。 Voxtral TTS 完善了 Mistral 的生态系统，该系统包括转录、推理模型和定制平台，使该公司成为美国云服务提供商的全面替代方案。

💬 文章金句

- 这是一种赌注，即企业语音 AI 的未来将不会由谁构建了听起来最好的模型来决定，而是由谁能赋予公司对模型最大的控制权来决定。

当该领域的所有主要竞争对手都在运营专有的、API 优先的业务时……Mistral 却在发布完整的模型权重，邀请公司下载 Voxtral TTS，并在自己的服务器甚至智能手机上运行它。
我们将音频视为一个巨大的赌注，也是与所有 AI 模型交互的关键，甚至可能是唯一的未来接口。

📊 文章信息

AI 评分：89

来源：VentureBeat

作者：Michael Nuñez

分类：人工智能

语言：英文

阅读时间：10 分钟

字数：2396

标签： Mistral AI, Voxtral TTS, 文本转语音, 开放权重, 企业级 AI

阅读完整文章

Mistral AI 刚刚发布了一款号称超越 ElevenLabs 的文本转语音模型，并免费开放权重

🤖 問 AI