4 步出声，单卡 0.24 秒！Noiz AI 联合港科大清华，开源音频生成大模型

📌 一句话摘要

AudioX-Turbo 通过分布匹配蒸馏与对抗蒸馏，将音频生成扩散步数从 50-200 步压缩至 4 步，单卡 RTX 4090 上生成 10 秒音频仅需 0.24 秒，并配合 920 万量级强指令数据集实现精确时间戳控制，模型与代码已全部开源。

📝 详细摘要

文章报道了 Noiz AI 联合香港科技大学、清华大学推出的极速音频生成大模型 AudioX-Turbo。该模型以 Multimodal Diffusion Transformer (MMDiT) 为骨干，通过分布匹配蒸馏和对抗蒸馏将原本 50-200 步的扩散生成过程压缩至 4 步，推理速度提升约 25 倍，在单张 RTX 4090 上生成 10 秒音频仅需 0.24 秒（RTF 0.02），且 4 步模型在部分指标上反超 100 步教师模型。为解决指令跟随问题，团队构建了 920 万量级的 IF-caps-Pro 数据集，采用 Gemini 2.5 Pro 生成带时间戳的结构化模板，再用 Qwen2-Audio 扩写，使模型首次实现精确的时间戳控制。模型支持文本、视频、图像多模态输入，在 AudioCaps、MusicCaps 等基准测试中，4 步模型在核心音质指标上击败或战平需要 50-200 步的基线模型，在指令跟随评测 T2A-bench 上呈现碾压态势。项目已全部开源。

💡 主要观点

- AudioX-Turbo 通过分布匹配蒸馏和对抗蒸馏将扩散步数从 50-200 步压缩至 4 步。 基于 Flow Matching 框架，引入 DMD 和对抗蒸馏，同时应用 CFG 蒸馏消除额外开销，使 4 步模型在部分指标上反超 100 步教师模型，单卡 4090 上 RTF 仅 0.02。

920 万量级强指令数据集 IF-caps-Pro 实现了精确时间戳控制。 采用 Gemini 2.5 Pro 生成带时间戳、乐器、事件数量的结构化模板，再用 Qwen2-Audio 扩写，使模型能精确理解声音的类别、数量、先后顺序和时间戳。

模型支持 Anything-to-Audio，覆盖文本、视频、图像多模态输入。 以 MMDiT 为骨干配合 MAF 模块，从零训练 2.7B 参数，确保跨模态控制力，一个模型即可处理多种输入模态。

💬 文章金句

- AudioX-Turbo 仅需 4 个采样步数就逼近 Teacher 模型 100 步的音质

文本标签写得越细，模型不仅文本生音频效果变好，连带着'只看无声视频配音'时的对齐度也跟着大幅提升

📊 文章信息

AI 初评：84

来源：量子位

作者：思邈

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1889

标签： AI 音频生成, 模型蒸馏, 扩散模型, 多模态 AI, 开源项目

阅读完整文章

4 步出声，单卡 0.24 秒！Noiz AI 联合港科大清华，开源音频生成大模型

🤖 問 AI