在《ACM Transactions on Multimedia Computing, Communications and Applications》期刊2023年1月第19卷第1期,Prasen Kumar Sharma、Ira Bisht和Arijit Sur三位来自印度理工学院古瓦哈提分校(Indian Institute of Technology Guwahati)的研究人员发表了一篇题为《Wavelength-based Attributed Deep Neural Network for Underwater Image Restoration》的研究论文。这项研究聚焦于计算机视觉领域中的低层视觉任务,具体是针对水下图像恢复(Underwater Image Restoration, UIR)这一具有挑战性的问题。
学术背景与研究目标 水下图像普遍存在对比度低、颜色失真严重的问题。其根本原因在于光线在水体中传播时会发生非均匀衰减,且衰减程度与光的波长密切相关。具体而言,红光波长最长,在水下衰减最快,传播距离最短;蓝光波长最短,衰减最慢,能传播得更远。这种不对称的衰减导致了水下图像通常呈现出偏蓝的色调,细节和颜色信息大量丢失。尽管近年来基于深度学习的水下图像恢复研究取得了丰硕成果,但现有方法在网络设计中普遍忽略了上述波长相关的颜色通道不对称性,通常对所有颜色通道使用相同大小的感受野(Receptive Field)。
本研究旨在解决这一核心问题。研究者假设,根据颜色通道在水下的传播范围(即波长)为其分配不同大小的感受野,将有助于网络更有效地学习水下图像的特征,从而提升恢复性能。具体而言,考虑到蓝光信息(对应全局水体信息)传播最广,应为其分配最大的感受野以捕获全局上下文;绿光(常与海洋生物相关)次之;红光(衰减最快,常携带局部细节和颜色信息)则分配最小的感受野。基于此,论文提出了一个名为“Deep WaveNet”的新型深度学习框架,其核心目标是同时实现水下图像增强(Enhancement)和超分辨率(Super-Resolution, SR)。研究目标不仅在于获得视觉上更佳、定量指标更好的恢复图像,更在于验证这些经过增强的图像能够有效提升后续高层视觉任务(如语义分割、姿态估计)的性能。
详细工作流程 Deep WaveNet是一个多阶段卷积神经网络(CNN)框架,其工作流程清晰划分为五个主要阶段和一个超分辨率子阶段,整体设计体现了“分而治之”和“自适应精炼”的思想。
阶段一:波长驱动的多上下文特征提取 这是本研究的核心创新点。网络首先将退化的水下输入图像D在通道维度上分离为红色(Dr)、绿色(Dg)和蓝色(Db)三个单通道图像。随后,对每个通道独立使用不同尺寸的卷积核进行处理:对红色通道使用3x3的小卷积核(对应局部细节),对绿色通道使用5x5的中等卷积核,对蓝色通道则使用7x7的大卷积核(对应全局上下文)。该设计直接模拟了不同波长光在水下的传播特性。每个卷积操作后接批归一化(Batch Normalization)和PReLU激活函数。处理后的特征分别记为f¹_r,3, f¹_g,5, f¹b,7。最后,将这些通道特异性特征在通道维度上进行拼接,得到第一阶段的多上下文特征图m¹<3,5,7>。
阶段二:注意力引导的跳跃连接精炼 第二阶段旨在从第一阶段的多上下文特征中,进一步提取颜色特异性的失真残差,并利用注意力机制进行自适应精炼。首先,将m¹_<3,5,7>分别通过3x3、5x5和7x7的卷积层进行处理,然后将每个卷积层的输出与第一阶段对应的颜色通道特征(f¹_r,3等)进行跳跃连接(Skip Connection),初步得到残差特征f²_r,3, f²_g,5, f²_b,7。接着,引入卷积块注意力模块(Convolutional Block Attention Module, CBAM)对这些残差特征进行精细化处理。CBAM会顺序生成通道注意力和空间注意力图,并与输入特征相乘,从而自适应地强调重要特征、抑制无关特征。这一步骤(记为CBAM(f²r,3)等)确保了来自第一阶段的有噪声的颜色特异性特征不会被盲目地传播到后续层,同时保留了对于全局颜色校正至关重要的通道细节。精炼后的特征再次拼接,形成m²<3,5,7>。
阶段三:全局颜色校正残差生成 此阶段接收来自第二阶段精炼后的多上下文特征m²<3,5,7>,并生成最终的全局颜色校正残差图。具体操作是,将m²<3,5,7>分别通过3x3、5x5和7x7的卷积层,然后将每个卷积层的输出与原始的输入图像对应通道(Dr, Dg, Db)进行逐像素相加(Pixel-wise Addition)。这样做的目的是学习一个针对每个颜色通道的、基于多尺度上下文的加性校正量。相加后得到的特征f³_r,3, f³_g,5, f³b,7拼接后形成m³<3,5,7>,它编码了为恢复清晰图像所需施加的整体颜色变换。
阶段四:图像重建 第四阶段作为重建模块,负责将全局颜色校正残差解码为增强后的图像。首先,对m³<3,5,7>进行一次转置卷积(Deconvolution)操作进行上采样,并将结果与m³<3,5,7>本身进行跳跃连接,得到特征f⁴。然后,再次使用CBAM模块对f⁴进行精炼,以进一步优化特征。最后,通过另一个转置卷积层生成最终的增强图像E。如果任务仅为图像增强,则E即为输出,其通道数为3(RGB)。
超分辨率子阶段 为了实现同时增强与超分辨率,研究对阶段四进行了模块化设计。当需要执行倍数为s的超分辨率时,阶段四的最终转置卷积层将输出通道数设置为3*s²。接着,将这些特征输入一个后处理子网络,该子网络由二维卷积层和像素重排(Pixel-Shuffle)操作构成。像素重排是一种高效的上采样方法,它将低分辨率特征图中一个像素位置的多通道信息,周期性地重新排列到高分辨率空间中的相邻像素位置,从而获得高分辨率图像,避免了转置卷积可能带来的网格伪影(Gridding Effect)。该设计支持2倍、3倍和4倍等不同的空间分辨率提升尺度。
模型训练与数据分析流程 研究使用了三个公开的水下图像数据集:EUVP(11,435对训练图像)、UIEB(890对图像)和UFO-120(1,500对训练图像)。训练时,采用Adam优化器,并组合了三种损失函数进行监督:1)传统的均方误差损失(L2 Loss),保证像素级精度;2)感知损失(Perceptual Loss),基于预训练的VGG16网络提取的特征差异,旨在保留图像的高频细节和感知质量;3)结构相似性损失(SSIM Loss),用于最小化增强图像与真实图像在结构上的差异。对于纯增强任务,主要使用L2和感知损失;对于联合增强与超分辨率任务,则加入SSIM损失以获得更好效果。整个模型的参数量仅为3.23 MB,处理一张640x480的图像仅需0.38秒,显示出较高的效率。
主要研究结果 研究进行了全面而严谨的实验,从定量指标、定性视觉对比以及对高层视觉任务的影响三个维度验证了Deep WaveNet的有效性。
在水下图像增强任务上,论文在EUVP和UIEB两个基准数据集上与近20种现有最佳方法进行了对比,评估了包括PSNR、SSIM、UIQM、NIQE在内的12种图像质量指标。结果显示,Deep WaveNet在绝大多数指标上取得了领先或极具竞争力的性能。例如,在EUVP数据集上,其PSNR达到了28.62 dB,SSIM达到了0.83,均显著优于对比方法。在UIEB测试集上,PSNR达到21.57 dB,比著名的WaterNet方法提升了约13%。特别地,在缺乏参考图像的UIEB挑战集上,Deep WaveNet在无参考指标UIQM和NIQE上表现最佳,证明其增强结果具有更优的感知质量和自然度。视觉对比图清晰表明,Deep WaveNet生成的图像颜色更为自然、对比度适中,能有效去除偏色和模糊,同时避免了其他方法可能出现的过饱和、细节丢失或残留噪声等问题。
在水下图像超分辨率任务上,研究在UFO-120数据集上进行了2倍、3倍和4倍超分辨率的测试。定量结果表明,Deep WaveNet在SSIM指标上全面领先,尤其在4倍超分辨率任务上,相比当前最佳方法Deep SESR,SSIM提升了约12%。在PSNR指标上也表现出相当或更优的性能。定性结果显示,Deep WaveNet恢复的图像纹理更清晰,颜色失真更少,更接近真实的高分辨率图像,而对比方法如SRDRM或Deep SESR的结果中仍可见明显的颜色伪影或噪声痕迹。
最能体现本研究价值的,是其对高层视觉任务性能提升的验证。研究选取了水下语义分割(使用SUIM-Net)和潜水员2D姿态估计(使用OpenPose)两个具有实际应用意义的任务。实验将不同UIR方法增强后的图像作为这些高层模型的输入。结果显示,使用Deep WaveNet增强后的图像,所得到的语义分割掩码(Mask)边界更清晰,类别区分更准确;在姿态估计任务中,关节关键点的检测更完整、位置更精确。这有力地证明,一个优秀的低层视觉恢复模型,能够通过提供质量更高的输入,直接助推高层视觉任务的性能,形成了从“图像恢复”到“场景理解”的良性闭环。
此外,论文还进行了深入的消融实验。通过构建不同变体模型(如:所有层使用相同3x3卷积核且无CBAM;使用波长驱动卷积但无CBAM;使用CBAM但无波长驱动卷积;以及在第一阶段处理整幅RGB图像而非分通道处理等),定量和定性地分析了各核心组件的贡献。结果证实,同时引入波长驱动的多上下文设计和CBAM注意力精炼机制,对性能提升至关重要。可视化各阶段学习到的特征图也显示,完整版Deep WaveNet能更有效地分离和强调与水体和海洋生物相关的特征。
结论与研究价值 本研究成功提出并验证了首个基于波长驱动感受野设计的水下图像恢复深度学习框架——Deep WaveNet。其主要结论是:在水下图像恢复任务中,根据不同颜色通道的波长(即在水下的传播能力)为其分配差异化的感受野大小,并结合注意力机制对跨阶段特征进行自适应精炼,能够显著提升恢复图像的质量。这种设计使网络能更有效地利用水下图像的物理先验知识。
该研究的科学价值在于,它突破了以往水下图像恢复网络设计中“一刀切”式使用相同感受野的局限,将水下光学衰减的物理模型巧妙地融入了深度神经网络的结构设计之中,为物理启发式(Physics-inspired)的深度学习模型设计提供了一个新颖而有效的范例。其应用价值则十分广泛,高质量的恢复图像可直接应用于海洋勘探、水下机器人导航、海洋生物学研究、水下考古、潜水员监控等多个领域,并能作为强大的预处理步骤,提升后续各种自动化视觉分析系统的可靠性和准确性。
研究亮点 1. 核心创新点明确:首次在水下图像恢复领域提出了“波长-感受野”关联假设,并据此设计了通道特异性的多上下文卷积结构。这是将领域知识(水下光学)深度嵌入神经网络架构的一次成功实践。 2. 方法集成巧妙:不仅提出了新颖的骨干结构,还创造性地将CBAM注意力模块用于跳跃连接的特征精炼,而非简单地置于卷积层之后,形成了“特征提取-残差学习-注意力精炼”的协同机制。 3. 验证全面深入:研究不仅进行了标准的图像质量评估,还开创性地系统验证了图像恢复对高层视觉任务(语义分割、姿态估计)的正面影响,极大地提升了工作的说服力和应用导向性。 4. 模型高效实用:所提出的Deep WaveNet模型轻量、高效,在保持高性能的同时具有较低的计算成本和内存占用,有利于实际部署。 5. 失败案例分析:论文罕见地展示了增强可能导致高层任务性能下降的个别案例,并进行了初步分析,体现了研究的严谨性和对问题复杂性的认识,为未来研究指明了改进方向(如开发更鲁棒的水下专用高层视觉模型)。
这项工作通过将水下物理特性与深度学习模型设计深度融合,在水下图像恢复领域取得了显著的性能提升,并为相关跨领域研究提供了富有启发性的思路。