突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

📌 一句话摘要

美团 LongCat 团队开源了 LongCat-AudioDiT，一种直接在波形潜空间进行端到端生成的零样本语音克隆模型，通过修复训练-推理不匹配和引入自适应投影引导，在 Seed 基准上取得了 SOTA 的说话人相似度。

📝 详细摘要

本文详细介绍了美团 LongCat 团队发布的 LongCat-AudioDiT 模型，该模型旨在解决传统 TTS 系统因级联架构导致的信息损失问题。其核心创新在于彻底抛弃梅尔频谱等中间表示，直接在波形潜空间利用扩散模型进行端到端生成。文章重点阐述了两项关键技术突破：一是识别并修复了流匹配 TTS 中长期存在的训练-推理不匹配问题，通过提示区域隐变量强制重置和无条件预测净化来稳定音色；二是提出了自适应投影引导（APG）以取代传统的无分类器引导（CFG），有效缓解了频谱过饱和导致的音质劣化。此外，文章还分享了关于 VAE 重建质量与 TTS 生成效果之间关系的核心洞察，并公布了模型在 Seed 基准测试中的优异表现，其 3.5B 版本在说话人相似度（SIM）指标上达到了当前最优水平，同时保持了极具竞争力的可懂度。模型代码与论文已完全开源。

💡 主要观点

- 采用波形潜空间直接生成的端到端架构，规避了传统级联 TTS 的信息衰减瓶颈。 模型使用一个波形变分自编码器（Wav-VAE）将音频压缩至潜空间，再由一个扩散 Transformer（DiT）在该空间内完成从文本到声音的映射，从根本上避免了梅尔谱等中间表征转换带来的误差累积。

修复了流匹配 TTS 的训练-推理不匹配问题，并提出了自适应投影引导（APG）以提升生成质量。 通过提示区域隐变量强制重置和净化无条件预测，解决了推理时音色条件区域演化偏离训练约束的问题。APG 则通过分解引导信号，精准保留有益成分、抑制劣化成分，相比 CFG 能更好地平衡相似度与自然度。

揭示了 VAE 重建质量与 TTS 生成效果并非正相关，并找到了潜空间维度与帧率的最优平衡点。 实验发现，过度追求 VAE 的高重建分数会导致潜空间维度膨胀，反而增加下游扩散模型的学习难度。最终确定 64 维潜在维度与 11.7Hz 帧率为最佳配置，在保留细节与便于建模之间取得平衡。

LongCat-AudioDiT 在零样本语音克隆任务上取得了 SOTA 性能，且已完全开源。 在 Seed 基准测试中，其 3.5B 模型在中文和中文难句测试集上的说话人相似度（SIM）分别达到 0.818 和 0.797，超越多个知名模型，同时文本错误率（CER/WER）保持极低水平，证明了端到端波形生成范式的有效性。

💬 文章金句

- 我们彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音（Text-to-Speech， TTS），从根源阻断数据转换的级联误差。

我们首次发现并解决了流匹配 TTS 中长期存在的训练-推理不匹配问题。
APG 将引导信号分解为平行与正交两个分量，保留正交分量（有益部分），同时抑制平行分量（劣化部分），从而在提升自然度的同时避免音质损失。
VAE 重建质量越好 ≠ 语音生成效果越好。单纯追求高重建分数，会导致潜空间维度膨胀。这使得下游的扩散模型难以学习，导致综合表现下降。
LongCat-AudioDiT 并没有使用高质量人工标注数据和多阶段的训练，仅仅通过 ASR 转写的预训练数据和单阶段预训练就取得了比多阶段训练的模型更好的表现。

📊 文章信息

AI 初评：91

来源：美团技术团队

作者：作者: 美团LongCat

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3404

标签：语音合成, TTS, 零样本克隆, 扩散模型, AudioDiT

阅读完整文章

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

🤖 問 AI