← 回總覽

音效生成自己说了算!小米开源可控视频音效生成模型 ControlFoley

📅 2026-05-29 17:00 小米技术 人工智能 2 分鐘 1358 字 評分: 86
ControlFoley 视频音效生成 可控生成 多模态 开源模型
📌 一句话摘要 小米大模型应用团队开源了 ControlFoley,一个统一且可控的视频音效生成框架,支持文本引导、文本控制和参考音频控制三类任务,在多个基准上达到开源 SOTA。 📝 详细摘要 本文由小米技术团队发布,详细介绍了其开源的视频音效生成模型 ControlFoley。文章指出,现有视频音效生成模型虽能根据画面自动配音,但难以满足创作者对声音内容和风格的精确控制需求。ControlFoley 旨在解决这一「可控性」难题,通过联合视觉编码、时间-音色解耦和多模态鲁棒训练三大技术,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。文章通过大量实验数据证明,C

📌 一句话摘要

小米大模型应用团队开源了 ControlFoley,一个统一且可控的视频音效生成框架,支持文本引导、文本控制和参考音频控制三类任务,在多个基准上达到开源 SOTA。

📝 详细摘要

本文由小米技术团队发布,详细介绍了其开源的视频音效生成模型 ControlFoley。文章指出,现有视频音效生成模型虽能根据画面自动配音,但难以满足创作者对声音内容和风格的精确控制需求。ControlFoley 旨在解决这一「可控性」难题,通过联合视觉编码、时间-音色解耦和多模态鲁棒训练三大技术,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。文章通过大量实验数据证明,ControlFoley 在语义对齐、时间同步、声音质量以及多模态控制能力上均达到开源 SOTA 水平,并在与商业闭源系统 Kling-Foley 的对比中展现出竞争力。该模型已开源代码、权重和技术报告,旨在推动视频音效生成从「模型被动匹配」向「创作者主动控制」演进。

💡 主要观点

- ControlFoley 是一个统一的可控视频音效生成框架,支持三类核心任务。 该框架统一了文本引导视频配音、文本控制视频配音和参考音频控制视频配音,让创作者能通过文本或参考音频精确指定声音内容和风格,即使与画面内容冲突也能优先遵循用户意图。

通过联合视觉编码、时间-音色解耦和模态鲁棒训练实现可控性。 联合视觉编码增强模型对音视频时空关系的理解;时间-音色解耦策略让参考音频控制音色而不干扰视频同步;模态鲁棒训练使模型能稳定适配多种输入组合。
在多个基准上达到开源 SOTA,并具备与商业闭源系统竞争的能力。 在 VGGSound-Test、Kling-Audio-Eval 等 benchmark 上,ControlFoley 在语义对齐、时间同步和声音质量上均取得领先,且性能优势来自模型设计而非更大规模训练。

💬 文章金句

- 视频音效生成的下一步,需要从「看画面配声音」走向「按意图配声音」。

  • ControlFoley 的核心价值,是让创作者真正控制声音。
  • 让不同模态各司其职,让用户意图成为生成过程中的明确控制信号。
  • ControlFoley 的性能优势并非来自更大的训练规模,而来自更有针对性的模型设计。

📊 文章信息

AI 初评:86

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:22 分钟

字数:5302

标签: ControlFoley, 视频音效生成, 可控生成, 多模态, 开源模型

阅读完整文章

查看原文 → 發佈: 2026-05-29 17:00:00 收錄: 2026-05-29 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。