基于深度细节网络的单幅图像去雨方法

分享自：
基于深度细节网络的单幅图像去雨方法

期刊:2017 IEEE Conference on Computer Vision and Pattern RecognitionDOI:10.1109/CVPR.2017.186
本文旨在介绍一项题为“Removing Rain from Single Images via a Deep Detail Network”的原创性研究工作，由Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, Xinghao Ding以及John Paisley共同完成。作者团队分别来自中国的厦门大学、华南理工大学以及美国的哥伦比亚大学。该研究发表于2017年的IEEE计算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition, CVPR）上。
学术背景 该研究属于计算机视觉领域，具体聚焦于低层视觉任务中的图像增强问题，即单幅图像去雨技术。在雨天条件下，雨线会严重降低图像和视频的质量，不仅影响主观观感，还会损害如监控系统等户外视觉系统的性能。因此，开发有效的去雨方法具有广泛的实际应用需求。与利用多帧信息的视频去雨方法相比，单幅图像去雨更为困难，因为可用于检测和移除雨线的信息非常有限。现有的单幅图像去雨方法大多基于低层图像特征或补丁建模，当图像中物体的结构与雨线的方向和形态相似时，这些方法往往难以在去除雨线的同时很好地保留物体细节。近年来，深度卷积神经网络（Convolutional Neural Network, CNN）在高层视觉任务（如图像分类）上取得了巨大成功，并开始被应用于图像去噪、超分辨率等低层图像处理问题。受此启发，本研究旨在设计一种新颖的深度网络架构，以解决单幅图像去雨这一更具挑战性的问题。
研究流程详述 本研究主要包含以下几个关键步骤：网络架构设计、数据集构建、网络训练、以及实验验证。
第一，网络架构设计。本研究提出了一个名为“深度细节网络”（Deep Detail Network）的端到端学习框架。其核心创新在于两点：负残差映射（Negative Residual Mapping，简称Neg-Mapping）和细节层（Detail Layer）的引入。传统的“直接网络”（Direct Network）试图直接学习从有雨图像到干净图像的复杂映射，这导致映射范围过大，学习过程困难，且容易产生颜色偏移和梯度消失问题。受深度残差网络（Deep Residual Network, ResNet）启发，作者提出不直接预测干净图像，而是预测“负残差”，即有雨图像与干净图像之间的差值（通常为负值）。这显著缩小了网络需要学习的映射范围，使学习过程更容易。具体目标函数从最小化||h(x) - y||变为最小化||h(x) + x - y||，其中h(x)是网络预测的残差。
然而，仅使用负残差映射结合ResNet结构（即ResNet+Neg-Mapping）虽能改善结果，但仍可能残留轻微雨线。为此，作者进一步引入了图像先验知识。他们将输入的有雨图像x分解为基础层x_base和细节层x_detail，其中基础层通过导向滤波（Guided Filtering）等低通滤波获得，x_detail = x - x_base。细节层移除了大部分平缓的背景干扰，主要包含雨线和物体边缘等高频信息，且其像素值分布更为稀疏（大部分接近零）。作者将细节层而非原始图像作为参数层（即ResNet结构）的输入，并将负残差作为参数层的输出。最终的去雨图像通过将有雨图像与网络预测的残差相加得到。这种结合了细节层输入和负残差映射输出的网络被称为“深度细节网络”。该设计不仅通过负残差映射缩小了输出范围，还通过细节层输入进一步缩小了输入范围，并利用其稀疏性使网络更专注于雨线结构，从而简化了学习问题，提升了性能。网络的具体实现采用了修改后的ResNet结构，移除了池化层以保留空间信息，并使用了批量归一化（Batch Normalization）和ReLU激活函数。
第二，数据集构建。由于难以获取大量真实世界的有雨/干净图像对，作者采用合成数据来训练网络。他们从UCID、BSD数据集及网络搜索中收集了1000张干净图像，并使用图像处理技术为每张干净图像合成了14张具有不同雨线方向和强度的有雨图像，最终构建了一个包含14,000对图像的大规模合成数据集。其中，9,100对图像（约300万个64x64的图像块）用于训练，剩余的4,900对用于测试。
第三，网络训练。使用随机梯度下降（Stochastic Gradient Descent, SGD）算法最小化目标函数。网络深度设为26层，每层滤波器数量为16，滤波器尺寸为3x3。训练在Caffe框架下进行，共进行了约21万次迭代。
第四，实验验证。研究在合成数据和真实世界数据上对所提方法进行了全面评估，并与当时两种先进的方法（基于字典学习的方法[25]和基于高斯混合模型的方法[24]）进行了比较。评估指标包括定性视觉对比和定量指标（对于合成数据，使用结构相似性指数SSIM）。此外，作者还进行了广泛的消融实验，比较了不同网络结构（直接网络、Neg-Mapping、ResNet、ResNet+Neg-Mapping、最终网络）的性能和收敛速度，探究了网络深度与宽度的影响，并展示了该方法在图像去噪和JPEG伪影减少任务上的扩展应用潜力。
主要结果 实验结果表明，作者提出的深度细节网络在单幅图像去雨任务上取得了显著优于当时最先进方法的效果。
在合成测试数据上（如图6所示的“girl”、“flower”、“umbrella”图像），[25]和[24]两种方法都残留了明显的雨线或产生了过度平滑的伪影。相比之下，本文方法能更彻底地去除雨线，同时更好地保留物体的细节（如鸟的羽毛、花瓣纹理）。定量SSIM指标（表1）也证实了这一点：在三个测试例子上，本文方法的SSIM值（0.90， 0.92， 0.86）均显著高于[25]和[24]方法。在全部4,900张合成测试图像上的平均SSIM，本文方法达到了0.90 ± 0.05，同样优于其他方法。
在真实世界测试图像上（如图7的“street”和图8的“people”、“car”），由于没有真实干净图像作为参考，仅进行定性评估。结果显示，[25]方法仍残留雨线，[24]方法的结果存在过度平滑，而本文方法在去除雨线的同时，对图像细节的保持最为出色，视觉质量最佳。对于包含雨雾的重度雨天图像，作者还演示了先进行去雾预处理再应用本文去雨网络能进一步提升效果（图9）。
消融实验的结果有力地支持了网络设计的有效性。图10展示了不同网络结构的训练和测试误差收敛曲线。其中，“直接网络”和“ResNet”的性能和收敛速度都较差。“Neg-Mapping”单独使用已能取得不错效果，但结合了ResNet参数层和细节层输入的“最终网络”（即深度细节网络）在收敛速度和最终测试误差上表现最佳。这验证了负残差映射和细节层输入相结合能有效简化学习问题。
关于网络深度与宽度的实验（表3）挑战了一个常见观念，即更深的网络结构不适合低层视觉任务。实验表明，在本文提出的适当网络设计下（避免了梯度消失），增加网络深度（从14层到50层）比增加每层滤波器数量（从16到64）更能提升性能（SSIM从0.906提升到0.928）。这表明，结合了领域知识的深度结构确实能够增强模型的表征能力，从而改善去雨效果。表4进一步对比了本文网络与标准ResNet在不同深度下的性能，结果显示在达到相近性能时，本文网络所需的层数更少（例如，本文26层网络与ResNet 50层网络性能相当）。
在运行效率方面（表2），由于本文方法在训练后是纯粹的前向传播过程，因此在测试时速度远远快于需要进行复杂优化迭代的[25]和[24]方法，尤其是在GPU上，处理速度优势极为明显。
此外，扩展实验（图13）表明，本文提出的深度细节网络框架可以不经修改直接应用于图像去噪和JPEG伪影减少任务，并取得良好效果，证明了该框架作为一种处理高频退化问题的通用方法的潜力。
结论与意义 本研究提出并验证了一种基于深度细节网络和负残差映射的单幅图像去雨新方法。其核心贡献在于，通过将图像分解为细节层并预测负残差，显著缩小了网络需要学习的映射范围，从而使得训练深度网络解决图像回归问题变得更加容易和有效。尽管网络仅在合成数据上训练，但展现出对真实世界图像的良好泛化能力。实验证明，该方法在合成和真实图像上，无论是定性视觉质量还是定量指标，均显著优于当时最先进的基于字典学习和混合模型的方法，并且具有更快的测试速度。
该研究的科学价值在于：1）证明了通过结合领域知识（细节层、负残差）进行适当的网络设计，深度架构不仅能用于高层视觉任务，也能有效解决低层图像处理问题，且更深的网络可以带来性能提升；2）提出了一种通用的学习框架，其思想（聚焦高频细节、预测残差）可迁移至其他图像恢复任务，如去噪和压缩伪影去除。其应用价值在于为单幅图像去雨提供了一个高效、高质量的解决方案，对提升户外视觉系统在恶劣天气下的鲁棒性具有实际意义。
研究亮点 1. 创新性的网络设计：提出了“深度细节网络”，创造性地将负残差映射与细节层输入相结合，通过双重范围缩减（输入和输出）极大地简化了学习映射，这是方法高效的关键。 2. 对深度网络用于低层任务的深入探索：通过系统的消融实验和深度/宽度对比实验，实证了在融入图像先验知识的前提下，更深的网络结构能够提升低层图像恢复任务的性能，挑战了当时的普遍认知。 3. 卓越的性能与效率：在多个数据集上取得了当时最优的去雨效果，并且在测试阶段具有极高的计算效率，实现了性能与速度的平衡。 4. 框架的通用性：所提出的网络框架被证明可直接应用于其他图像退化问题（去噪、JPEG伪影减少），展示了其作为通用图像恢复工具的潜力。 5. 大规模合成数据集：构建了当时规模显著大于以往工作的合成数据集（14,000对图像），为训练深度网络提供了必要的数据基础，并证明了在此数据上训练的模型能很好地泛化到真实场景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问