小米大模型应用团队发布开源视频消除框架 SVOR,通过 MUSE、DA-Seg 和课程式两阶段训练三大技术,解决真实场景中阴影残留、运动抖动和遮罩缺陷三大难题,在 CVPR 2026 挑战赛中夺冠。
📝 详细摘要
本文介绍了小米大模型应用团队提出的视频物体消除开源框架 SVOR(Stable Video Object Removal)。文章首先指出当前视频消除技术在真实场景中面临的三大痛点:阴影残留、运动抖动和遮罩缺陷。针对这些问题,SVOR 设计了三个关键技术:MUSE 窗口化联合策略,通过时间窗口内的遮罩联合解决快速运动物体的漏帧和闪烁问题;DA-Seg 去噪感知分割,增强系统对不完美遮罩的容错能力;课程式两阶段训练策略,先以真实背景视频自监督预训练学习时序规律,再用合成数据精调处理阴影和反射。实验结果表明,SVOR 在多个标准数据集和退化遮罩基准上达到新的 SOTA 水平,并在 CVPR 2026 物理感知视频实例消除挑战赛中从 18 支队伍中脱颖而出获得第一名。项目代码已以 Apache 2.0 协议开源,并提供了可直接调用的 Skill。
💡 主要观点
- SVOR 针对真实场景中视频消除的三大顽疾设计:阴影残留、运动抖动和遮罩缺陷。 现有方法多在理想条件下验证,但真实视频中物体运动、光线变化、遮罩不完美等问题导致效果不佳。SVOR 专门针对这些不完美条件设计解决方案。
💬 文章金句
- 现有的方法大多在理想条件下设计和验证,而真实世界的视频远比论文里的测试场景复杂。
- SVOR 的核心思路很务实:先解决不完美条件下的可用性,再追求极致效果。
- 视频编辑工具的下一个突破,来自对'真实使用条件'的尊重。
📊 文章信息
AI 初评:85
来源:小米技术
作者:小米技术
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2421
标签: 视频消除, SVOR, 小米, CVPR, 视频编辑