CVPR 视频消除夺冠！小米开源视频消除神器 SVOR，专治三大顽疾

📌 一句话摘要

小米大模型应用团队发布开源视频消除框架 SVOR，通过 MUSE、DA-Seg 和课程式两阶段训练三大技术，解决真实场景中阴影残留、运动抖动和遮罩缺陷三大难题，在 CVPR 2026 挑战赛中夺冠。

📝 详细摘要

本文介绍了小米大模型应用团队提出的视频物体消除开源框架 SVOR（Stable Video Object Removal）。文章首先指出当前视频消除技术在真实场景中面临的三大痛点：阴影残留、运动抖动和遮罩缺陷。针对这些问题，SVOR 设计了三个关键技术：MUSE 窗口化联合策略，通过时间窗口内的遮罩联合解决快速运动物体的漏帧和闪烁问题；DA-Seg 去噪感知分割，增强系统对不完美遮罩的容错能力；课程式两阶段训练策略，先以真实背景视频自监督预训练学习时序规律，再用合成数据精调处理阴影和反射。实验结果表明，SVOR 在多个标准数据集和退化遮罩基准上达到新的 SOTA 水平，并在 CVPR 2026 物理感知视频实例消除挑战赛中从 18 支队伍中脱颖而出获得第一名。项目代码已以 Apache 2.0 协议开源，并提供了可直接调用的 Skill。

💡 主要观点

- SVOR 针对真实场景中视频消除的三大顽疾设计：阴影残留、运动抖动和遮罩缺陷。 现有方法多在理想条件下验证，但真实视频中物体运动、光线变化、遮罩不完美等问题导致效果不佳。SVOR 专门针对这些不完美条件设计解决方案。

MUSE 窗口化联合策略通过时间窗口遮罩联合解决快速运动物体的漏帧和闪烁问题。 传统逐帧处理容易跟丢快速移动物体，MUSE 将连续帧的遮罩联合处理，确保运动物体被完整消除，并可免训练改善已有方法。

DA-Seg 去噪感知分割为系统提供对不完美遮罩的容错能力。 AI 识别的物体边界往往不准，DA-Seg 作为纠错机制，即使遮罩有缺陷也能智能修正，保证最终修复质量。

课程式两阶段训练策略让模型从理论走向实战。 第一阶段用真实背景视频自监督预训练学习时序规律，第二阶段用合成数据精调处理阴影和反射，跨场景适应能力极强。

💬 文章金句

- 现有的方法大多在理想条件下设计和验证，而真实世界的视频远比论文里的测试场景复杂。

SVOR 的核心思路很务实：先解决不完美条件下的可用性，再追求极致效果。
视频编辑工具的下一个突破，来自对'真实使用条件'的尊重。

📊 文章信息

AI 初评：85

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2421

标签：视频消除, SVOR, 小米, CVPR, 视频编辑

阅读完整文章

CVPR 视频消除夺冠！小米开源视频消除神器 SVOR，专治三大顽疾

🤖 問 AI