本文旨在向中文研究者介绍一项关于水下图像增强的重要原创性研究工作。这篇题为《DICAM: Deep Inception and Channel-wise Attention Modules for Underwater Image Enhancement》的学术论文由 Hamidreza Farhadi Tolie, Jinchang Ren, Eyad Elyan 三位作者共同完成,他们分别来自英国罗伯特戈登大学的国家海底中心和计算学院。该研究正式发表于2024年3月24日,收录于Elsevier出版社的期刊《neurocomputing》第584卷。
本研究属于计算机视觉和图像处理领域,特别是聚焦于水下图像增强(Underwater Image Enhancement,简称UIE)这一重要方向。随着海洋工程和生态系统开发的快速发展,对海底资源的自动勘探、保护与监测变得日益重要。然而,水下成像设备在实际应用中面临巨大挑战。由于水的浑浊度、光衰减、散射以及水中悬浮颗粒的存在,原始水下图像通常存在质量低下、对比度差以及颜色严重偏色(如偏蓝或偏绿)等问题。这些视觉失真严重限制了传统视觉技术在水下状态监测、目标检测与分割等任务中的应用效果。因此,水下图像增强技术对于提升后续计算机视觉任务的性能至关重要。
现有的水下图像增强方法主要可以分为三类:非物理模型方法、物理模型方法和基于深度学习的方法。非物理模型方法(如直方图均衡化及其变体)主要通过修改像素强度值来增强,但往往不考虑水下环境的复杂性,容易引入噪声、伪影和不自然的颜色失真,且依赖于经验参数,泛化能力差。物理模型方法(如图像形成模型及基于暗通道先验的方法)试图通过数学建模来描述图像退化过程,但这是一个病态反问题,求解复杂、耗时,且对不同水下图像类型(如海洋与沿海)和退化程度非常敏感。近年来兴起的基于深度学习的方法(包括GAN、CNN和编码器-解码器网络)凭借其自动和分层提取特征的能力,取得了一定进展。然而,现有的深度学习方法多数采用为自然场景设计的通用CNN架构或弱监督的GAN,未能充分应对水下图像两个核心缺陷:比例性退化和非均匀颜色衰减。比例性退化指图像中内容(如物体、颗粒)的可见度与其到摄像头的距离成反比,距离越远,细节越模糊,退化程度在不同区域不均匀。非均匀颜色衰减是由于不同波长光在水中的吸收率不同,导致红光最快消失,其次是绿光,蓝光吸收最慢,从而造成整体颜色失真。
基于上述背景和分析,该研究的核心目标是提出一种新颖的深度学习模型,专门针对性地解决水下图像的比例性退化和非均匀颜色偏色问题,以生成具有更高视觉质量、更佳对比度和更真实色彩的水下增强图像。
本研究提出了一种名为DICAM(深度Inception与通道注意力模块)的新型神经网络架构。整个研究流程包括模型设计、训练、验证和全面的性能评估。
第一阶段:模型设计与核心模块 DICAM模型框架主要包含三个阶段:通道级颜色恢复、颜色校正和维度缩减。 1. 通道级颜色恢复阶段:为了分别量化每个颜色通道(R、G、B)的信息损失和比例性退化,模型首先将输入图像分离为三个独立的颜色通道。针对每个通道,设计了一个Inception模块(Inc Module)进行多尺度特征提取。该模块并行使用1×1(像素级)、3×3、5×5三种不同大小的卷积核以及一个最大池化层(Max-pooling),分别捕获不同尺度的结构特征和轮廓信息。这样可以同时感知图像中不同区域、不同尺度上的颜色退化情况。接着,为了衡量这些不同尺度特征图对最终恢复的贡献权重,研究者引入了一个通道注意力模块。CAM的设计灵感来源于SENet中的“压缩与激励”机制,但进行了精简和修改。它首先对每个特征图进行全局平均池化(Global Average Pooling, GAP),获得通道级别的全局统计信息。然后通过两个全连接层进行“压缩”(降维)和“激励”(升维),并创新性地使用Softsign激活函数代替常用的ReLU和Sigmoid。Softsign的输出范围在[-1, +1],这使得模型不仅能学习正权重,还能学习负权重来抑制某些特征通道,从而更灵活地平衡和细化颜色信息。最后,将学习到的权重系数与对应的输入特征图相乘,得到加权后的特征图。对三个颜色通道分别进行上述处理后,将它们提取并加权后的特征图进行拼接。
颜色校正阶段:经过第一阶段处理后,特征图已经融合了来自三个通道的多尺度信息。为了进一步校正由于非均匀光衰减造成的颜色偏差(如整体偏蓝),将拼接后的特征图再次送入一个Inception模块进行更高层次的特征提取,并再次应用CAM模块。这个阶段的CAM旨在自适应地权衡来自红、绿、蓝通道的特征,以恢复丢失的颜色信息,并执行全局颜色校正。
维度缩减阶段:经过前两个阶段,特征图的通道数非常高(256个)。为了输出最终的RGB增强图像,需要将高维特征图降至3个通道。模型采用渐进式降维策略,首先使用一个3×3的卷积层开始减少通道数,随后逐步降低维度,最后通过Sigmoid激活函数将输出像素值限制在[0,1]范围内,生成增强后的图像。
第二阶段:模型训练与损失函数 研究使用了两个公开的水下图像增强数据集:UIEB和EUVP。模型输入图像尺寸调整为256×256。采用Adam优化器进行训练,学习率为0.0008,批大小为5,在两个数据集上均训练120个epoch。为了获得高质量的增强结果,模型采用了一个复合损失函数进行端到端的监督训练,该函数由三部分组成: * L1损失(MAE):计算生成图像与真实参考图像之间的像素级绝对误差,保证整体内容的保真度。 * 结构相似性损失(SSIM):衡量生成图像与参考图像在亮度、对比度和结构方面的相似性,有助于减少模糊,保留纹理和结构信息。 * 感知损失(Perceptual Loss):使用在ImageNet上预训练的VGG-19网络,提取生成图像和参考图像在‘relu4_3’层的特征,并计算它们之间的L1距离。该损失迫使模型保留图像的高层语义信息,使增强结果在视觉感知上更接近真实图像。 总损失函数是这三个损失项的加权和。
第三阶段:性能评估与实验设计 为了全面、公平地验证DICAM模型的优越性,研究进行了广泛的实验和深入的分析: 1. 对比方法:与三大类共12种先进方法进行了对比,包括非物理模型(CLAHE、ICM、融合方法、Retinex等)、物理模型(DCP、UDCP、IBLA、ULAP等)和深度学习方法(FUnIE-GAN、Water-Net、UIEC^2-Net、WaveNet)。 2. 评价指标:使用了全参考和无参考两类图像质量评估指标。 * 全参考指标:需要参考图像,包括SSIM、PCQI、PSNR和MSE。更高的SSIM、PCQI、PSNR和更低的MSE表示更好的性能。 * 无参考指标:仅需生成的图像,包括专门针对水下图像设计的UIQM和UCIQE。UIQM衡量图像的色彩丰富度、锐度和对比度;UCIQE通过线性组合色度、饱和度和对比度来量化颜色偏色、模糊和低对比度。 * 直方图比较指标:由于现有无参考指标可能无法完全准确评估水下图像质量,研究者额外在HSV颜色空间计算了生成图像与参考图像在色调(H)、饱和度(S)、明度(V)通道的直方图之间的Kullback-Leibler (KL) 散度和卡方统计量。更低的值表示色彩分布更接近参考图像。 * 运行时间:记录了在测试集上处理单张图像的平均时间。 3. 数据集划分:在UIEB数据集中,随机选取800张图像训练,90张测试。在EUVP数据集中,使用其官方提供的测试集。 4. 消融实验:为了验证DICAM各核心组件的有效性,进行了系统的消融研究,包括:移除所有CAM模块、移除颜色校正阶段、将通道级Inception替换为图像级Inception、将CAM替换为标准CBAM、仅使用Inception中单个分支等。 5. 损失函数分析:测试了不同损失函数组合对模型性能的影响。 6. 跨数据集评估:在一个数据集上训练模型,在另一个数据集上测试,以评估模型的泛化能力。
实验结果表明,DICAM模型在多项指标上均达到了最优或极具竞争力的性能。
在UIEB数据集上: * 与传统方法相比,DICAM在全参考指标(SSIM、PSNR、MSE)上取得了最佳成绩,在UCIQE上位列第二。但作者指出,主观视觉分析显示DICAM生成的图像在色彩丰富度上明显优于得分最高的融合方法。为了更客观地比较,他们计算了生成图像与参考图像在UIQM和UCIQE分数上的均方误差。结果显示,DICAM在这两项误差指标上表现最好,证明了其增强图像在质量指标上更接近真实参考。 * 与深度学习方法相比,DICAM在SSIM、PCQI、PSNR、UCIQE上取得最佳,在MSE和UIQM上位列第二。从图4展示的定性结果看,DICAM增强的图像在色彩自然度、对比度提升和细节恢复方面都更出色,视觉效果更接近参考图像。
在EUVP数据集上: * DICAM在全参考指标(SSIM、PSNR、MSE)上全面超越所有对比方法(包括传统和深度学习方法)。在无参考指标上,UIQM和UCIQE分数也表现出强大的竞争力。同样,其UIQM和UCIQE的MSE误差值非常低,再次证实了其颜色校正能力的优越性。
直方图比较结果: 这一分析有力地补充了传统指标。在UIEB数据集上,DICAM在H和S通道的KL散度和卡方统计量上均取得最佳,在V通道也名列前茅。特别是在与最新的WaveNet对比时,DICAM在H、S、V通道的KL散度上分别提升了31.70%、34.98%和99.51%。在EUVP数据集上,DICAM的结果在所有比较项中均为最佳或次佳,显示出其色彩恢复的稳定性和一致性。这证明DICAM能更有效地将失真图像的色彩分布校正至接近真实分布。
消融实验结果: * 移除CAM模块会显著降低模型性能,证明了注意力机制对于权衡多尺度特征和颜色通道至关重要。 * 移除颜色校正阶段会导致性能轻微下降,但定性结果显示该阶段对最终色彩的自然度和丰富度有重要贡献。 * 将通道级处理改为图像级处理会降低性能,验证了分离处理每个颜色通道以针对性应对非均匀衰减策略的有效性。 * 将CAM替换为更复杂的CBAM(包含空间注意力)后性能下降,表明本研究提出的精简版CAM在性能和效率上取得了更好平衡。 * 仅使用Inception中单个分支(如仅3×3或5×5卷积)的性能不如使用全部分支,证实了多尺度特征提取对于应对比例性退化的必要性。 * Softsign激活函数带来的负权重被证明有助于更有效地抑制过度偏蓝/偏绿,从而产生更逼真的颜色。
损失函数分析: 结合L1、SSIM和感知损失的组合取得了最佳的综合性能。SSIM损失提升了结构保真度,而感知损失虽然可能略微降低某些量化指标,但显著改善了图像的视觉感知质量。
跨数据集评估: DICAM在跨数据集测试中,在七个比较指标上取得了最优性能,证明了其良好的泛化能力和对不同水下场景的鲁棒性。
运行时间: DICAM的平均处理时间(0.0248秒/图)在对比的深度学习方法中位列第二,仅次于FUnIE-GAN,但DICAM在图像质量上全面优于后者,实现了效率与效果的较好平衡。
本研究成功提出并验证了DICAM模型,一种专门针对水下图像两大核心问题(比例性退化和非均匀颜色偏色)的深度学习增强方法。其主要贡献和创新点在于: 1. 提出了通道级的多尺度特征提取与自适应融合框架:通过为每个颜色通道独立配置Inception模块和CAM,模型能够精确量化不同通道、不同区域的退化程度,并通过注意力机制进行自适应加权恢复。 2. 设计了高效的通道注意力模块:改进的CAM结构精简,并引入Softsign激活函数实现负权重调节,从而更灵活地进行颜色校正和特征细化。 3. 引入了渐进式颜色恢复与校正流程:分阶段进行通道级恢复和全局校正,使得模型能够系统性地处理光衰减和颜色失真问题。
该研究的科学价值在于为水下图像增强领域提供了一种新的、具有明确物理问题导向的网络架构设计思路,即深度网络的设计应紧密对应水下图像退化的物理成因(非均匀衰减、比例退化)。其实验设计和评估方法(特别是引入直方图比较和跨数据集测试)也为该领域的严谨评估提供了参考。
其应用价值非常显著:DICAM模型能够有效提升水下图像的视觉质量,使其更清晰、色彩更自然、对比度更高。这将直接有利于下游的各类水下计算机视觉任务,如目标检测、识别、分割、海底测绘、基础设施监测等,提高这些自动化系统的可靠性和准确性。论文已公开源代码,便于同行复现和进一步研究。
论文最后对未来工作进行了展望,指出可以进一步研究模型在处理图像存储和传输过程中产生失真的能力,以及探索利用区域关系和信息检索中的内容导向增强方法来进一步提升图像质量,从而间接提高目标检测等任务的精度。此外,作者强调了开发更准确的水下图像无参考质量评估指标的重要性,这对于推动整个领域的发展至关重要。这些见解为后续研究指明了有价值的方向。