NAF和SynthStab:基于RAFT的网络和合成数据集的数字视频稳定方法
基于深度学习的视频稳定方法改进与合成数据集SynthStab的研究
背景介绍
数字视频稳定技术通过软件去除不必要的振动和相机运动痕迹,是现代视频处理中的关键技术,尤其在业余视频拍摄中应用广泛。然而,现有基于深度学习的直接变形(Direct Warping Stabilization,简称DWS)方法虽然在低质量视频中表现良好,但在应对剧烈不稳定性时效果有限,且难以达到传统方法的稳定水平。这主要源于以下原因:现有数据集的稳定视频定义不够明确、模型结构简单、对未来帧的预测信息利用不足等。
为此,本文提出一种新型的基于RAFT(Recurrent All-Pairs Field Transforms)的半在线直接变形方法——NAFT,以及一个新的合成数据集SynthStab,用以解决上述问题。这些改进不仅提高了DWS方法在剧烈不稳定视频中的表现,还显著减少了模型大小和参数量,进一步接近当前最先进方法的效果。
论文来源与作者
论文题为《NAFT and SynthStab: A RAFT-Based Network and a Synthetic Dataset for Digital Video Stabilization》,由Marcos Roberto e Souza、Helena de Almeida Maia及Helio Pedrini等人撰写,隶属于巴西坎皮纳斯大学计算机研究所。论文于2024年发表于International Journal of Computer Vision。
研究流程
合成数据集SynthStab的构建
SynthStab数据集包括两部分:不稳定性较低的短视频(SynthStab-SL)和不稳定性较高的长视频(SynthStab-LH)。其生成过程分为以下步骤:
稳定轨迹的生成:基于运动学模型定义相机的六自由度轨迹,包括常速、加速等段。每段轨迹由初始位置、速度和大小确定,并随机生成关键点以控制轨迹趋势。
不稳定轨迹的生成:在稳定轨迹基础上,通过引入随机关键点和高斯滤波增加不稳定性,同时考虑场景深度变化,保证不失原运动目的。
视频渲染:利用Unreal Engine和AirSim插件在不同环境中渲染同步的稳定与不稳定视频,包括RGB帧、深度图和三维相机位置数据。
运动场的计算:通过深度图和相机运动矩阵计算稳定帧与不稳定帧之间的运动场,用于监督模型训练。
新模型NAFT的设计
NAFT模型基于RAFT网络结构,设计了以下核心模块: - 邻域感知更新机制IUNO:通过迭代解码器综合邻域信息更新当前帧的光流预测,使预测更加准确。 - 多任务解码器:将初步光流预测(近似任务)与邻域调整(适应任务)分开处理,确保视频稳定性与帧间连续性。 - 隐式学习稳定性:通过使用运动场而非图像纹理监督训练,避免显式的稳定性假设和模型偏差。
在推理阶段,NAFT采用滑窗方法进行半在线推理,通过锚点帧与前瞻帧的信息交换提高预测精度。此外,结合视频修复技术实现全帧稳定化,避免因裁剪导致的有效区域丢失。
实验结果
与现有方法的对比
实验选用NUS数据集中的六类视频,比较了NAFT与五种现有方法的性能(包括深度学习与传统方法)。结果表明: 1. 稳定性:NAFT在低频与高频稳定性指标(LHR-H和LHR-OF)上与最先进方法(如Deep3D)接近,尤其在剧烈不稳定(如快速旋转)场景下效果显著提升。 2. 图像质量:NAFT引入的运动场平滑约束提高了光流预测的连续性,减少了图像失真,获得更高的SSIM值。 3. 裁剪区域:借助视频修复技术,NAFT避免了传统裁剪方法导致的有效信息损失,实现全帧画面保留。
模型资源效率
相比于其他DWS方法,NAFT显著减少了模型大小和参数量: - 模型参数量:仅为最小竞争模型(StabNet)的18%。 - 帧率:在性能与效率的权衡下,NAFT以适中的FPS实现高质量视频稳定。
数据集与训练策略优化
SynthStab数据集的生成过程对控制实验变量和大规模数据集构建具有重要意义。实验还表明,逐步引入平滑约束与对简单轨迹的预训练策略有助于复杂不稳定情况的学习。
研究意义
本文的研究在理论与实践层面均具有重要意义: 1. 理论价值:通过构建SynthStab数据集和设计NAFT模型,为视频稳定性研究提供了新的思路,特别是在隐式学习稳定性概念上的创新。 2. 应用价值:新方法在减少计算资源需求的同时,显著提高了视频稳定质量,为移动设备及实时视频处理应用提供了可能性。
亮点与展望
NAFT的邻域感知机制、合成数据集及全帧修复策略是本研究的三大亮点。此外,未来可以进一步探索更大范围的邻域感知和更复杂的场景适配,推动DWS技术的全面发展。