小米最新开源的 OmniVoice 语音克隆模型支持 600 多种语言,在中英文测试中达到 SOTA 水平,合成效率比实时快 40 倍。
📝 详细摘要
小米发布并开源了名为 OmniVoice 的语音克隆 TTS 模型。该模型采用扩散语言模型风格的离散非自回归架构,实现了从文本到语音的一步到位生成。关键指标显示,其在 Seed-TTS 测试集上的 WER 仅为 0.84%,性能超过 ElevenLabs v2。模型支持 3-10 秒音频克隆、非语言符号(如笑声)以及通过描述属性生成声音,对小语种保护具有重要意义。
📊 文章信息
AI 评分:86
来源:AIGCLINK(@aigclink)
作者:AIGCLINK
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:406
标签: OmniVoice, 小米开源, TTS, 语音克隆, SOTA