← 回總覽

4 步出声,单卡 0.24 秒!Noiz AI 联合港科大清华,开源音频生成大模型

📅 2026-06-15 14:52 思邈 人工智能 2 分鐘 1467 字 評分: 84
AI 音频生成 模型蒸馏 扩散模型 多模态 AI 开源项目
📌 一句话摘要 AudioX-Turbo 通过分布匹配蒸馏与对抗蒸馏,将音频生成扩散步数从 50-200 步压缩至 4 步,单卡 RTX 4090 上生成 10 秒音频仅需 0.24 秒,并配合 920 万量级强指令数据集实现精确时间戳控制,模型与代码已全部开源。 📝 详细摘要 文章报道了 Noiz AI 联合香港科技大学、清华大学推出的极速音频生成大模型 AudioX-Turbo。该模型以 Multimodal Diffusion Transformer (MMDiT) 为骨干,通过分布匹配蒸馏和对抗蒸馏将原本 50-200 步的扩散生成过程压缩至 4 步,推理速度提升约 25 倍,在单

📌 一句话摘要

AudioX-Turbo 通过分布匹配蒸馏与对抗蒸馏,将音频生成扩散步数从 50-200 步压缩至 4 步,单卡 RTX 4090 上生成 10 秒音频仅需 0.24 秒,并配合 920 万量级强指令数据集实现精确时间戳控制,模型与代码已全部开源。

📝 详细摘要

文章报道了 Noiz AI 联合香港科技大学、清华大学推出的极速音频生成大模型 AudioX-Turbo。该模型以 Multimodal Diffusion Transformer (MMDiT) 为骨干,通过分布匹配蒸馏和对抗蒸馏将原本 50-200 步的扩散生成过程压缩至 4 步,推理速度提升约 25 倍,在单张 RTX 4090 上生成 10 秒音频仅需 0.24 秒(RTF 0.02),且 4 步模型在部分指标上反超 100 步教师模型。为解决指令跟随问题,团队构建了 920 万量级的 IF-caps-Pro 数据集,采用 Gemini 2.5 Pro 生成带时间戳的结构化模板,再用 Qwen2-Audio 扩写,使模型首次实现精确的时间戳控制。模型支持文本、视频、图像多模态输入,在 AudioCaps、MusicCaps 等基准测试中,4 步模型在核心音质指标上击败或战平需要 50-200 步的基线模型,在指令跟随评测 T2A-bench 上呈现碾压态势。项目已全部开源。

💡 主要观点

- AudioX-Turbo 通过分布匹配蒸馏和对抗蒸馏将扩散步数从 50-200 步压缩至 4 步。 基于 Flow Matching 框架,引入 DMD 和对抗蒸馏,同时应用 CFG 蒸馏消除额外开销,使 4 步模型在部分指标上反超 100 步教师模型,单卡 4090 上 RTF 仅 0.02。

920 万量级强指令数据集 IF-caps-Pro 实现了精确时间戳控制。 采用 Gemini 2.5 Pro 生成带时间戳、乐器、事件数量的结构化模板,再用 Qwen2-Audio 扩写,使模型能精确理解声音的类别、数量、先后顺序和时间戳。
模型支持 Anything-to-Audio,覆盖文本、视频、图像多模态输入。 以 MMDiT 为骨干配合 MAF 模块,从零训练 2.7B 参数,确保跨模态控制力,一个模型即可处理多种输入模态。

💬 文章金句

- AudioX-Turbo 仅需 4 个采样步数就逼近 Teacher 模型 100 步的音质

  • 文本标签写得越细,模型不仅文本生音频效果变好,连带着'只看无声视频配音'时的对齐度也跟着大幅提升

📊 文章信息

AI 初评:84

来源:量子位

作者:思邈

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1889

标签: AI 音频生成, 模型蒸馏, 扩散模型, 多模态 AI, 开源项目

阅读完整文章

查看原文 → 發佈: 2026-06-15 14:52:30 收錄: 2026-06-15 22:00:33

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。