超 600 种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

📌 一句话摘要

小米 AI 实验室开源 OmniVoice，一个基于极简双向 Transformer 架构、覆盖 646 种语言、性能超越商用系统的多语言语音克隆 TTS 模型。

📝 详细摘要

小米 AI 实验室 Kaldi 团队推出并全面开源了 OmniVoice，这是一个创新的多语言语音克隆 TTS 模型。其核心突破在于：1）采用极简的非自回归双向 Transformer 架构，摒弃了复杂的文本建模和混合结构，并首次引入大语言模型作为预训练参数，解决了传统 TTS 模型「读不准」的痛点；2）基于 50 个开源数据集构建了涵盖 646 种语言、58 万小时的多语言训练数据，通过低资源语种动态上采样策略，在 24 语种测试中语音相似度和可懂度超越多款商用系统，在 102 语种测试中逼近真实语音水平；3）支持跨语言语音克隆、自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等实用功能。该项目代码、模型权重及论文均已开源。

💡 主要观点

- OmniVoice 采用极简的非自回归双向 Transformer 架构，并首次引入 LLM 预训练参数。 该架构摒弃了文本单独建模和复杂混合结构，通过全码本随机掩蔽策略提升训练效率，并利用大语言模型大幅提升语音合成的可懂度，从根本上解决了「读不准」问题。

模型覆盖 646 种语言，在低资源小语种上表现出极强的泛化能力。 基于 58 万小时、50 个开源数据集构建的训练数据，配合低资源语种动态上采样策略，使得训练数据不足 10 小时的小语种也能实现高质量合成，性能超越商用系统。

OmniVoice 具备跨语言克隆和多维度可控能力。 支持使用一种语言的参考音频生成其他语言的语音，并提供自定义音色设计、带噪音频适配、语气符号插入和发音纠错等功能，极大提升了实际应用的灵活性。

💬 文章金句

- OmniVoice 是业内首个覆盖数百语种的语音克隆 TTS 模型，在低资源小语种上具备极强的泛化能力。

它仅用一个双向 Transformer 网络，就能直接实现文本到语音的转化，是目前最简单的非自回归 TTS 模型。
OmniVoice 的语音合成质量优于目前同类主流模型，同时，训练和推理速度极具优势，一天完成 10 万小时训练。
在 102 种语种的测试中，它的语音可懂度逼近甚至优于真实语音。
OmniVoice 不仅全部基于开源数据训练，其本身的训练、推理代码及模型权重也全面开源。

📊 文章信息

AI 初评：86

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2528

标签： OmniVoice, 语音克隆, TTS, 多语言, 小米

阅读完整文章

超 600 种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

🤖 問 AI