AudioX-Turbo 通过分布匹配蒸馏与对抗蒸馏,将音频生成扩散步数从 50-200 步压缩至 4 步,单卡 RTX 4090 上生成 10 秒音频仅需 0.24 秒,并配合 920 万量级强指令数据集实现精确时间戳控制,模型与代码已全部开源。
📝 详细摘要
文章报道了 Noiz AI 联合香港科技大学、清华大学推出的极速音频生成大模型 AudioX-Turbo。该模型以 Multimodal Diffusion Transformer (MMDiT) 为骨干,通过分布匹配蒸馏和对抗蒸馏将原本 50-200 步的扩散生成过程压缩至 4 步,推理速度提升约 25 倍,在单张 RTX 4090 上生成 10 秒音频仅需 0.24 秒(RTF 0.02),且 4 步模型在部分指标上反超 100 步教师模型。为解决指令跟随问题,团队构建了 920 万量级的 IF-caps-Pro 数据集,采用 Gemini 2.5 Pro 生成带时间戳的结构化模板,再用 Qwen2-Audio 扩写,使模型首次实现精确的时间戳控制。模型支持文本、视频、图像多模态输入,在 AudioCaps、MusicCaps 等基准测试中,4 步模型在核心音质指标上击败或战平需要 50-200 步的基线模型,在指令跟随评测 T2A-bench 上呈现碾压态势。项目已全部开源。
💡 主要观点
- AudioX-Turbo 通过分布匹配蒸馏和对抗蒸馏将扩散步数从 50-200 步压缩至 4 步。 基于 Flow Matching 框架,引入 DMD 和对抗蒸馏,同时应用 CFG 蒸馏消除额外开销,使 4 步模型在部分指标上反超 100 步教师模型,单卡 4090 上 RTF 仅 0.02。
💬 文章金句
- AudioX-Turbo 仅需 4 个采样步数就逼近 Teacher 模型 100 步的音质
- 文本标签写得越细,模型不仅文本生音频效果变好,连带着'只看无声视频配音'时的对齐度也跟着大幅提升
📊 文章信息
AI 初评:84
来源:量子位
作者:思邈
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1889
标签: AI 音频生成, 模型蒸馏, 扩散模型, 多模态 AI, 开源项目