美团 LongCat 团队开源了 LongCat-AudioDiT,一种直接在波形潜空间进行端到端生成的零样本语音克隆模型,通过修复训练-推理不匹配和引入自适应投影引导,在 Seed 基准上取得了 SOTA 的说话人相似度。
📝 详细摘要
本文详细介绍了美团 LongCat 团队发布的 LongCat-AudioDiT 模型,该模型旨在解决传统 TTS 系统因级联架构导致的信息损失问题。其核心创新在于彻底抛弃梅尔频谱等中间表示,直接在波形潜空间利用扩散模型进行端到端生成。文章重点阐述了两项关键技术突破:一是识别并修复了流匹配 TTS 中长期存在的训练-推理不匹配问题,通过提示区域隐变量强制重置和无条件预测净化来稳定音色;二是提出了自适应投影引导(APG)以取代传统的无分类器引导(CFG),有效缓解了频谱过饱和导致的音质劣化。此外,文章还分享了关于 VAE 重建质量与 TTS 生成效果之间关系的核心洞察,并公布了模型在 Seed 基准测试中的优异表现,其 3.5B 版本在说话人相似度(SIM)指标上达到了当前最优水平,同时保持了极具竞争力的可懂度。模型代码与论文已完全开源。
💡 主要观点
- 采用波形潜空间直接生成的端到端架构,规避了传统级联 TTS 的信息衰减瓶颈。 模型使用一个波形变分自编码器(Wav-VAE)将音频压缩至潜空间,再由一个扩散 Transformer(DiT)在该空间内完成从文本到声音的映射,从根本上避免了梅尔谱等中间表征转换带来的误差累积。
💬 文章金句
- 我们彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech, TTS),从根源阻断数据转换的级联误差。
- 我们首次发现并解决了流匹配 TTS 中长期存在的训练-推理不匹配问题。
- APG 将引导信号分解为平行与正交两个分量,保留正交分量(有益部分),同时抑制平行分量(劣化部分),从而在提升自然度的同时避免音质损失。
- VAE 重建质量越好 ≠ 语音生成效果越好。单纯追求高重建分数,会导致潜空间维度膨胀。这使得下游的扩散模型难以学习,导致综合表现下降。
- LongCat-AudioDiT 并没有使用高质量人工标注数据和多阶段的训练,仅仅通过 ASR 转写的预训练数据和单阶段预训练就取得了比多阶段训练的模型更好的表现。
📊 文章信息
AI 初评:91
来源:美团技术团队
作者:作者: 美团LongCat
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3404
标签: 语音合成, TTS, 零样本克隆, 扩散模型, AudioDiT