Title: 这个 GitHub 开源的音频生成大模型太惊艳了,有意思。 | BestBlogs.dev
URL Source: https://www.bestblogs.dev/article/4a5a8262?amp%3Butm_medium=feed&%3Butm_campaign=resources&%3Bentry=rss_article_item
Published Time: 2026-06-22 15:00:00
Markdown Content: 76
AudioX-Turbo is a unified Anything-to-Audio generation framework supporting multiple inputs such as text, video, and audio, producing sound effects or music in just 4 steps. 逛 逛逛GitHub
Yesterday 1447 words (about 6 min) View Source →
Sign in to highlight text and take notes as you read. Sign in now
原创 逛逛 2026-06-22 15:00 浙江
先来看下面这个视频。
主要是听听每一个场景的配音。
这个视频中,风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声音、布鞋踩在松软草原的声音。
这些一系列场景的配音都是 AI 生成的。
也就是通过今天要推荐的开源语音大模型:AudioX-Turbo。
01 开源项目简介
AI 视频生成这一年卷得离谱,Seedance、可灵啥的都把效果拉到了电影级。
但是在某些场景下不太能精准控制。
AI 音频这边也有一些尴尬现状:主流方案还在用几十步甚至上百步的扩散采样,生成一段 10 秒的音频要等好一阵。
港科大、清华联合 Noiz AI 刚开源了一个 AudioX-Turbo ,目标就是想解决极速推理与精准可控两大难题。
它是一个统一的 Anything-to-Audio 生成框架。
输入随便组合:纯文本、纯视频、纯音频,或者文本加视频、视频加音频、文本加音频都行。
输出都是声音,可以是音效、环境音,也可以是音乐。
!Image 2
开源地址:https://github.com/NoizAI/AudioX-Turbo
论文:https://arxiv.org/abs/2606.12555
模型权重:https://huggingface.co/HKUSTAudio/AudioX-Turbo
02 看看效果
文字生成音频:在键盘上打字
文字生成音频:烟花绽放两次,随后是一段寂静,然后钟声开始滴答作响
文字生成音乐:平滑的城市 R&B 节拍,带有柔和的律动
文字生成音乐:适合旅行视频的振奋人心的尤克里里曲调
视频转音频生成
视频转音乐生成
03 两大核心能力
一个模型干 6 件事
大多数音频生成模型都是单一任务,做文本生成音频的不会做视频生成音乐。
AudioX-Turbo 把这 6 种任务装进了一个模型:文本生成音频、文本生成音乐、视频生成音频、视频生成音乐、文本加视频生成音频、文本加视频生成音乐。
更牛的是生成音频很快,4 步出结果。
这是 AudioX-Turbo 最核心的能力。
技术路径走的是 师生蒸馏:先用完整的多步扩散模型 AudioX-Base 当老师,再用 Distribution Matching Distillation 配合扩散判别器,把它压缩成 4 步就能出结果的 AudioX-Turbo。
对实际应用来说,响应延迟可以从分钟级降到秒级,做实时交互的 AI 音频工具有了可行性。
数据壁垒
训练数据是这类大模型项目的核心壁垒。
AudioX-Turbo 自建了一个叫 IF-caps-Pro 的数据集,规模大约 920 万 条样本,通过两阶段的数据采集和标注流程构建。
这个规模在音频领域不算小。
社区里大多数开源音频模型要么用现成的 5 万条 AudioCaps,要么用 5 千条的 MusicCaps,数据量级直接被 AudioX-Turbo 拉开了一个数量级。
04 怎么用起来
官方推荐 A100 或 H800,CUDA 12.1,DeepSpeed 训练路径还需要完整 CUDA toolkit。
普通个人玩家跑推理勉强,想完整复现训练基本要实验室级别。
安装步骤:
# Clone the repository
git clone https://github.com/NoizAI/AudioX-Turbo.git
cd AudioX-Turbo
# Create a conda environment
conda create -n audiox-turbo python=3.8.20
conda activate audiox-turbo
# Install media libraries
conda install -c conda-forge ffmpeg libsndfile
# Install dependencies
pip install -r requirements.txt
pip install -e . --no-deps
pip install soundfile==0.12.1
模型权重托管在 HuggingFace,用 huggingface-cli 下载:
pip install -U "huggingface_hub[cli]"
# Inference checkpoints (student + VAE + Synchformer)
huggingface-cli download HKUSTAudio/AudioX-Turbo \
audiox_turbo/audiox_turbo.ckpt pretransform/vae.ckpt synchformer/synchformer_state_dict.pth \
--local-dir checkpoints
# Training only: teacher / base model
huggingface-cli download HKUSTAudio/AudioX-Turbo \
pretrained_ckpt/pretrained_ckpt.ckpt \
--local-dir checkpoints
推理可以走 Gradio 或者 Python API。
Gradio 一行命令部署服务:
python run_gradio.py # http://localhost:7860
python run_gradio.py --share # 生成公开链接
Python API 调用也不难。
核心是 load_audiox_turbo_model 加载模型,generate_diffusion_cond_dmd 跑 4 步生成,最后用 torchaudio.save 落盘。
仓库给了完整的示例代码,包括视频条件下的 Synchformer 特征提取、音频后处理、视频音频合并这些细节。
开源地址:https://github.com/NoizAI/AudioX-Turbo
论文:https://arxiv.org/abs/2606.12555
模型权重:https://huggingface.co/HKUSTAudio/AudioX-Turbo
05 点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了: