本文为您介绍一项发表于期刊 *Knowledge-Based Systems*(第299卷,2024年)上的原创性研究工作,题为“Wavelet–Pixel Domain Progressive Fusion Network for Underwater Image Enhancement”。该研究的主要作者包括Shiben Liu、Huijie Fan、Qiang Wang、Zhi Han、Yu Guan和Yandong Tang,他们主要来自中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人学与智能制造创新研究院、中国科学院大学、沈阳大学制造过程综合实验室以及沈阳理工大学信息科学与工程学院。
一、 学术背景与动机 本研究隶属于计算机视觉与图像处理领域,具体聚焦于水下图像增强这一关键且具有挑战性的任务。由于水介质对光的吸收和散射作用,以及水中悬浮颗粒的干扰,获取的水下图像普遍存在颜色偏差(如偏蓝或偏绿)、光照度低、细节模糊以及雾化效应等问题。这些质量退化严重制约了水下图像在目标检测与识别、海洋生态环境监测和深海探测等场景中的应用效果。
传统的水下图像增强方法(UIE)及许多基于深度学习的方法,如多颜色空间融合网络UCoor和生成对抗网络PUGAN等,主要专注于在像素域(pixel domain)改善图像的颜色和整体光照。然而,这些方法在处理过程中往往忽视了图像中的精细细节(fine-grained details),而这些细节对于后续的高级视觉任务至关重要。为了在提升颜色和光照的同时,有效增强并保留图像细节,本研究团队提出了一个新颖的小波-像素域渐进融合网络。
二、 研究工作的详细流程 本研究的核心是设计并实现一个名为“小波-像素域渐进融合网络”的深度学习模型。整个工作流程围绕模型的设计、训练、验证与应用展开,具体步骤如下:
模型设计与架构构建:研究者提出了一种全新的网络架构——WPFNet。该网络由三个核心模块构成:
- 小波域模块:该模块旨在从多尺度小波域中提取包含精细细节的频率特征。首先,对输入的水下图像进行多级离散小波变换,分解得到不同尺度的低频子图像和三个方向(水平、垂直、对角线)的高频子图像。高频子图像包含边缘和纹理等细节信息,但也掺杂噪声;低频子图像包含主要的颜色和光照信息,但细节相对模糊。为此,研究团队设计了一个残差注意力块,用于增强低频子图像,在改善其颜色和光照信息的同时,尽可能保留丰富细节。同时,设计了一个Transformer块,利用自注意力机制处理三个高频子图像的合并特征,以学习长距离依赖关系,达到在增强细节的同时抑制噪声的目的。最后,将同一尺度下增强后的低频特征与处理后的高频特征相加,得到该尺度的频率特征。
- 像素域模块:鉴于小波域模块输出的频率特征在颜色和光照信息上可能仍显不足,研究者引入了一个相对简单的像素域模块。该模块通过卷积和降采样操作,从原始输入图像中提取不同尺度的空间特征。这些空间特征旨在为后续的融合过程提供丰富的颜色和光照信息,以弥补频率特征的短板。
- 重建模块:这是网络的最终输出部分,负责将小波域的频率特征和像素域的空间特征进行渐进式融合,以重建出清晰的水下图像。其关键组件是双域融合块。该模块从最小尺度开始,将频率特征、空间特征以及上一尺度传递下来的语义特征进行融合,并通过一个约束信号(即该尺度下的参考图像,在训练时提供)来引导融合过程,确保融合了双方的优势信息(频率特征的细节和空间特征的颜色/光照)。融合后输出的语义特征被传递到下一个更大尺度,与更大尺度的频率和空间特征再次进行融合。如此自小而大、渐进式地融合四个尺度的特征,最终通过卷积层输出增强后的全分辨率水下图像。
模型训练与损失函数设计:为了有效训练WPFNet模型,研究者设计了一个复合损失函数。该函数由三部分组成:
- 频率损失:对每个尺度增强后的低频子图像施加L1范数约束,确保其与对应尺度的参考低频图像在内容上保持一致,这有助于维持图像的基础结构。
- 重建损失:对每个尺度重建出的增强图像施加L1范数约束,确保其在各个尺度上都接近参考图像,这有助于在渐进上采样的过程中防止细节丢失。
- 感知损失:使用预训练的VGG-16网络提取增强图像和参考图像的高层语义特征,并计算其L2距离,旨在提升增强结果的视觉感知质量,使图像看起来更自然。 总损失是上述三个损失的加权和,在训练过程中用于指导模型参数的优化。实验在NVIDIA RTX 3090 GPU上进行,使用Adam优化器,共训练600个epoch。
实验验证与对比分析:研究在四个公开的水下图像数据集上进行了全面实验以验证模型性能。
- 数据集:包括两个有配对参考图像的数据集(UIEB数据集和Underwater-dark数据集)用于训练和定量评估,以及两个无配对参考图像的数据集(RUIE数据集和OceanDark数据集)用于测试模型的泛化能力。具体数据划分如原文表2所示,例如从UIEB的890对图像中选取790对训练,100对测试。
- 对比方法:选择了12种先进的对比方法,涵盖5种非学习方法(如IBLA、UDCP、ULAP、UNTV、MMLE)和7种基于深度学习的方法(如LCNet、UwCNN、UWNet、Water-Net、Ucolor、U-Shape、PUGAN)。
- 评估指标:使用有参考指标峰值信噪比(PSNR)和结构相似性(SSIM)来定量衡量与真实参考图像的接近程度。同时,使用无参考指标UCIQE、UIQM、NIQE和BRISQUE来衡量增强图像的视觉质量,这些指标分别评估色彩、清晰度、对比度的平衡以及图像的自然度。
三、 主要结果与分析 实验结果表明,本研究提出的WPFNet模型在各项任务上均取得了卓越的性能。
定性评估(视觉效果对比):
- 细节增强:如图5所示,与其它方法相比,WPFNet在增强图像后能够保留最丰富的精细细节(如石像面部的纹理)。许多对比方法要么光照处理不均导致细节模糊,要么在去雾或去色偏时损失了细节。
- 颜色校正与去雾:在图6至图9中,面对严重的蓝/绿色偏和雾化效应,非学习方法往往校正失败或引入不自然颜色。一些深度学习方法(如Ucolor、Water-Net)虽然能改善颜色,但有时会产生人工色痕或对特定色调(如绿色)处理不佳。WPFNet则能有效地校正颜色偏差,去除雾化效果,生成色彩自然、清晰的图像。
- 低光照增强与抗光源干扰:在处理OceanDark等低光照数据集时(图9),WPFNet能显著提升整体光照,并较好地处理图像中的人工光源干扰(如光斑),避免因过饱和或处理不当而导致中心区域细节丢失的问题,显示出更强的鲁棒性。
定量评估(数值指标对比):
- 有参考指标:如表3所示,在UIEB和Underwater-dark两个配对数据集上,WPFNet的PSNR和SSIM值均显著高于所有对比方法(包括深度学习和非学习方法),表明其输出结果最接近真实的高质量参考图像。
- 无参考指标:如表4和表5所示,在四个数据集上,WPFNet在衡量图像自然度的NIQE和BRISQUE指标上均取得了最佳(最低)值。在UCIQE和UIQM指标上,WPFNet也表现优异,在多个数据集上名列前茅。值得注意的是,某些非学习方法(如UNTV、MMLE)虽然在某些数据集的UCIQE/UIQM上得分很高,但结合其定性结果看,往往是因其产生了过度的红色通道或对比度,而非真实的视觉质量更优,这揭示了这些无参考指标的局限性。相比之下,WPFNet在各项指标和视觉观感上取得了更好的平衡。
消融实验与模型分析:
- 组件有效性:如表6和图10所示,通过依次移除残差注意力块(RAB)、低频特征、高频特征、像素域模块或双域融合块进行消融实验,验证了每个组件对最终性能的贡献。移除任一组件都会导致PSNR和SSIM下降,或在视觉效果上出现细节丢失、颜色校正不佳、光照不足等问题,证明了WPFNet整体设计的必要性。
- DFB数量:如表7所示,实验探讨了双域融合块的数量对性能的影响。结果表明,采用4个DFB进行渐进融合时,模型性能达到最优,过多或过少都会导致性能下降,证实了渐进式融合策略的有效性。
- 模型复杂度:如表8所示,WPFNet的参数量(2.16M)和计算量(20.1G FLOPs)远低于Ucolor、PUGAN等大型模型,而与轻量级的UwCNN等模型相比,在性能大幅提升的同时,复杂度增加相对可控,体现了较好的效率与性能平衡。
四、 结论与意义 本研究成功提出并验证了小波-像素域渐进融合网络,为解决水下图像增强中细节保留与颜色/光照提升难以兼顾的难题提供了一种新颖且有效的解决方案。主要结论如下: 该模型通过小波域模块从多尺度提取并增强包含精细细节的频率特征,通过像素域模块补充丰富的颜色和光照信息,并创新性地利用双域融合块,以参考图像为约束信号,自小而大地渐进融合双域优势特征,最终重建出视觉质量高、细节清晰、颜色自然、光照适宜的水下图像。 本研究的科学价值在于创新地将小波变换的多尺度频率分析与深度学习的特征学习能力相结合,并设计了有效的双域特征交互与渐进融合机制,为图像增强领域,特别是处理复杂退化场景的图像复原任务,提供了新的研究思路和方法论借鉴。 其应用价值则直接体现在提升水下视觉系统的性能上。增强后的高质量图像能够显著提升水下目标检测、识别、监测等后续任务的准确性和可靠性,对于推动海洋科学研究、资源勘探、水下工程运维以及生态保护等具有重要的实际意义。
五、 研究亮点 1. 方法新颖性:首次提出并实现“小波-像素域”协同增强的框架,明确地将细节增强(在小波域)与颜色/光照增强(在像素域)作为两个互补的目标,并通过专门设计的模块分别优化。 2. 模块创新:设计了残差注意力块用于低频图像增强,以及双域融合块用于渐进式特征融合,这两个核心组件是实现性能突破的关键。 3. 效果全面性:在多个公开数据集上的综合实验表明,WPFNet不仅在传统的颜色、光照校正指标上领先,更在细节保留方面表现突出,实现了综合视觉质量的显著提升,且具有较强的泛化能力。 4. 开源贡献:研究者已公开了该项目的代码,便于学术界和工业界复现结果、进行后续研究或集成应用,促进了该领域的技术发展。