小米 AI 实验室开源 OmniVoice,一个基于极简双向 Transformer 架构、覆盖 646 种语言、性能超越商用系统的多语言语音克隆 TTS 模型。
📝 详细摘要
小米 AI 实验室 Kaldi 团队推出并全面开源了 OmniVoice,这是一个创新的多语言语音克隆 TTS 模型。其核心突破在于:1)采用极简的非自回归双向 Transformer 架构,摒弃了复杂的文本建模和混合结构,并首次引入大语言模型作为预训练参数,解决了传统 TTS 模型「读不准」的痛点;2)基于 50 个开源数据集构建了涵盖 646 种语言、58 万小时的多语言训练数据,通过低资源语种动态上采样策略,在 24 语种测试中语音相似度和可懂度超越多款商用系统,在 102 语种测试中逼近真实语音水平;3)支持跨语言语音克隆、自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等实用功能。该项目代码、模型权重及论文均已开源。
💡 主要观点
- OmniVoice 采用极简的非自回归双向 Transformer 架构,并首次引入 LLM 预训练参数。 该架构摒弃了文本单独建模和复杂混合结构,通过全码本随机掩蔽策略提升训练效率,并利用大语言模型大幅提升语音合成的可懂度,从根本上解决了「读不准」问题。
💬 文章金句
- OmniVoice 是业内首个覆盖数百语种的语音克隆 TTS 模型,在低资源小语种上具备极强的泛化能力。
- 它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,是目前最简单的非自回归 TTS 模型。
- OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练。
- 在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音。
- OmniVoice 不仅全部基于开源数据训练,其本身的训练、推理代码及模型权重也全面开源。
📊 文章信息
AI 初评:86
来源:小米技术
作者:小米技术
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2528
标签: OmniVoice, 语音克隆, TTS, 多语言, 小米