← 回總覽

超 600 种语言,一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

📅 2026-05-07 17:00 小米技术 人工智能 2 分鐘 1428 字 評分: 86
OmniVoice 语音克隆 TTS 多语言 小米
📌 一句话摘要 小米 AI 实验室开源 OmniVoice,一个基于极简双向 Transformer 架构、覆盖 646 种语言、性能超越商用系统的多语言语音克隆 TTS 模型。 📝 详细摘要 小米 AI 实验室 Kaldi 团队推出并全面开源了 OmniVoice,这是一个创新的多语言语音克隆 TTS 模型。其核心突破在于:1)采用极简的非自回归双向 Transformer 架构,摒弃了复杂的文本建模和混合结构,并首次引入大语言模型作为预训练参数,解决了传统 TTS 模型「读不准」的痛点;2)基于 50 个开源数据集构建了涵盖 646 种语言、58 万小时的多语言训练数据,通过低资源语种

📌 一句话摘要

小米 AI 实验室开源 OmniVoice,一个基于极简双向 Transformer 架构、覆盖 646 种语言、性能超越商用系统的多语言语音克隆 TTS 模型。

📝 详细摘要

小米 AI 实验室 Kaldi 团队推出并全面开源了 OmniVoice,这是一个创新的多语言语音克隆 TTS 模型。其核心突破在于:1)采用极简的非自回归双向 Transformer 架构,摒弃了复杂的文本建模和混合结构,并首次引入大语言模型作为预训练参数,解决了传统 TTS 模型「读不准」的痛点;2)基于 50 个开源数据集构建了涵盖 646 种语言、58 万小时的多语言训练数据,通过低资源语种动态上采样策略,在 24 语种测试中语音相似度和可懂度超越多款商用系统,在 102 语种测试中逼近真实语音水平;3)支持跨语言语音克隆、自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等实用功能。该项目代码、模型权重及论文均已开源。

💡 主要观点

- OmniVoice 采用极简的非自回归双向 Transformer 架构,并首次引入 LLM 预训练参数。 该架构摒弃了文本单独建模和复杂混合结构,通过全码本随机掩蔽策略提升训练效率,并利用大语言模型大幅提升语音合成的可懂度,从根本上解决了「读不准」问题。

模型覆盖 646 种语言,在低资源小语种上表现出极强的泛化能力。 基于 58 万小时、50 个开源数据集构建的训练数据,配合低资源语种动态上采样策略,使得训练数据不足 10 小时的小语种也能实现高质量合成,性能超越商用系统。
OmniVoice 具备跨语言克隆和多维度可控能力。 支持使用一种语言的参考音频生成其他语言的语音,并提供自定义音色设计、带噪音频适配、语气符号插入和发音纠错等功能,极大提升了实际应用的灵活性。

💬 文章金句

- OmniVoice 是业内首个覆盖数百语种的语音克隆 TTS 模型,在低资源小语种上具备极强的泛化能力。

  • 它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,是目前最简单的非自回归 TTS 模型。
  • OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练。
  • 在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音。
  • OmniVoice 不仅全部基于开源数据训练,其本身的训练、推理代码及模型权重也全面开源。

📊 文章信息

AI 初评:86

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2528

标签: OmniVoice, 语音克隆, TTS, 多语言, 小米

阅读完整文章

查看原文 → 發佈: 2026-05-07 17:00:00 收錄: 2026-05-07 20:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。