本研究由Yao-Chih Lee(Google DeepMind/马里兰大学帕克分校)、Erika Lu(Google DeepMind)、Sarah Rumbey(Google DeepMind)、Michal Geyer(Google DeepMind/魏茨曼科学研究所)等学者合作完成,发表于CVPR(计算机视觉与模式识别顶会),是开放获取版本,与会议收录版本内容一致。
研究属于计算机视觉与视频编辑交叉领域,聚焦于视频分层分解(video layer decomposition)任务,即从单目视频中分离出包含物体及其关联效果(如阴影、反射)的透明图层(RGBA layers)。现有OmniMatte方法依赖静态背景或精确的相机位姿估计,难以处理动态背景和遮挡区域补全问题。
传统方法因缺乏生成式先验(generative prior),无法重建动态遮挡内容。本研究提出Generative OmniMatte框架,核心创新在于:
1. 利用预训练视频扩散模型(如Lumiere)的生成能力,补全遮挡区域并关联物体与效果;
2. 设计trimask条件机制,精确控制物体与效果的移除/保留;
3. 构建混合真实与合成数据的训练集,解决真实分层视频数据稀缺问题。
研究基于Lumiere视频扩散模型(Google DeepMind开发),其两阶段架构包括:
- 基础模型:生成128×128分辨率视频帧
- 空间超分辨率模型(SSR):上采样至1024×1024分辨率
通过微调其修复(inpainting)变体,开发了Casper模型(对象与效果移除专用),保留原始架构但引入以下改进:
传统二值掩码(binary mask)无法区分”需保留物体”与”需修改背景”。研究提出三值掩码(trimask):
- 0(黑色):需移除的物体区域
- 1(白色):需完整保留的物体
- 0.5(灰色):可能包含关联效果的背景区域
通过不同trimask组合生成:
- 背景层(clean-plate background):标记所有物体为移除区域
- 单物体层(solo videos):仅保留目标物体,移除其他物体
为解决真实分层数据稀缺问题,研究构建了四类混合数据集(总计超1600个样本):
| 数据类型 | 样本量 | 特点 |
|—————-|——–|———————————————————————-|
| OmniMatte | 31 | 从现有方法[29,36,47]成功案例提取,含真实阴影/反射数据 |
| Tripod | 15 | 静态摄像机拍摄的野外视频,含水体反射/波纹等复杂效果 |
| Kubric | 569 | Blender渲染的合成多物体场景,含物理交互与动态效果 |
| Object-Paste | 1024 | 通过SegmentAnything2裁剪真实物体并粘贴到其他视频,增强修复能力 |
阶段1:对象与效果移除
- 输入:原始视频 + 物体掩码(通过SegmentAnything2生成)
- Casper模型输出:背景层 + N个单物体层
- 关键技术:利用扩散模型的时空注意力机制(图5显示阴影区域与物体的注意力关联)
阶段2:OmniMatte重建
通过优化问题求解RGBA图层:
math \min_{\alpha_i, I_{i,fg}} \|I_i - [\alpha_i I_{i,fg} + (1-\alpha_i)I_{bg}]\|_2 + \beta_1\|\alpha_i\|_1 + \beta_0\phi_0(\alpha_i)
其中:
- $I_{i,fg}$:前景RGB
- $\alpha_i$:透明度通道
- $\phi_0$:近似L0稀疏正则项[36]
在合成数据集(5个Movie场景+5个Kubric场景)上评估:
| 方法 | PSNR↑ | LPIPS↓ |
|——————–|——–|——–|
| OmniMatte [36] | 24.29 | 0.223 |
| OmniMatteRF [29] | 37.38 | 0.023 |
| Ours | 38.38 | 0.020 |
支持多种视频编辑任务:
- 物体移除:彻底清除物体及关联阴影/反射(图1顶部)
- 运动重定时(motion retiming):通过图层时间偏移实现(图10)
- 背景替换:保留前景效果的一致性