小米大模型应用团队开源了 ControlFoley,一个统一且可控的视频音效生成框架,支持文本引导、文本控制和参考音频控制三类任务,在多个基准上达到开源 SOTA。
📝 详细摘要
本文由小米技术团队发布,详细介绍了其开源的视频音效生成模型 ControlFoley。文章指出,现有视频音效生成模型虽能根据画面自动配音,但难以满足创作者对声音内容和风格的精确控制需求。ControlFoley 旨在解决这一「可控性」难题,通过联合视觉编码、时间-音色解耦和多模态鲁棒训练三大技术,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。文章通过大量实验数据证明,ControlFoley 在语义对齐、时间同步、声音质量以及多模态控制能力上均达到开源 SOTA 水平,并在与商业闭源系统 Kling-Foley 的对比中展现出竞争力。该模型已开源代码、权重和技术报告,旨在推动视频音效生成从「模型被动匹配」向「创作者主动控制」演进。
💡 主要观点
- ControlFoley 是一个统一的可控视频音效生成框架,支持三类核心任务。 该框架统一了文本引导视频配音、文本控制视频配音和参考音频控制视频配音,让创作者能通过文本或参考音频精确指定声音内容和风格,即使与画面内容冲突也能优先遵循用户意图。
💬 文章金句
- 视频音效生成的下一步,需要从「看画面配声音」走向「按意图配声音」。
- ControlFoley 的核心价值,是让创作者真正控制声音。
- 让不同模态各司其职,让用户意图成为生成过程中的明确控制信号。
- ControlFoley 的性能优势并非来自更大的训练规模,而来自更有针对性的模型设计。
📊 文章信息
AI 初评:86
来源:小米技术
作者:小米技术
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5302
标签: ControlFoley, 视频音效生成, 可控生成, 多模态, 开源模型