音效生成自己说了算！小米开源可控视频音效生成模型 ControlFoley

📌 一句话摘要

小米大模型应用团队开源了 ControlFoley，一个统一且可控的视频音效生成框架，支持文本引导、文本控制和参考音频控制三类任务，在多个基准上达到开源 SOTA。

📝 详细摘要

本文由小米技术团队发布，详细介绍了其开源的视频音效生成模型 ControlFoley。文章指出，现有视频音效生成模型虽能根据画面自动配音，但难以满足创作者对声音内容和风格的精确控制需求。ControlFoley 旨在解决这一「可控性」难题，通过联合视觉编码、时间-音色解耦和多模态鲁棒训练三大技术，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。文章通过大量实验数据证明，ControlFoley 在语义对齐、时间同步、声音质量以及多模态控制能力上均达到开源 SOTA 水平，并在与商业闭源系统 Kling-Foley 的对比中展现出竞争力。该模型已开源代码、权重和技术报告，旨在推动视频音效生成从「模型被动匹配」向「创作者主动控制」演进。

💡 主要观点

- ControlFoley 是一个统一的可控视频音效生成框架，支持三类核心任务。 该框架统一了文本引导视频配音、文本控制视频配音和参考音频控制视频配音，让创作者能通过文本或参考音频精确指定声音内容和风格，即使与画面内容冲突也能优先遵循用户意图。

通过联合视觉编码、时间-音色解耦和模态鲁棒训练实现可控性。 联合视觉编码增强模型对音视频时空关系的理解；时间-音色解耦策略让参考音频控制音色而不干扰视频同步；模态鲁棒训练使模型能稳定适配多种输入组合。

在多个基准上达到开源 SOTA，并具备与商业闭源系统竞争的能力。 在 VGGSound-Test、Kling-Audio-Eval 等 benchmark 上，ControlFoley 在语义对齐、时间同步和声音质量上均取得领先，且性能优势来自模型设计而非更大规模训练。

💬 文章金句

- 视频音效生成的下一步，需要从「看画面配声音」走向「按意图配声音」。

ControlFoley 的核心价值，是让创作者真正控制声音。
让不同模态各司其职，让用户意图成为生成过程中的明确控制信号。
ControlFoley 的性能优势并非来自更大的训练规模，而来自更有针对性的模型设计。

📊 文章信息

AI 初评：86

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5302

标签： ControlFoley, 视频音效生成, 可控生成, 多模态, 开源模型

阅读完整文章

音效生成自己说了算！小米开源可控视频音效生成模型 ControlFoley

🤖 問 AI