DBFNet: 一种用于水下图像增强的双分支融合网络

分享自：
DBFNet: 一种用于水下图像增强的双分支融合网络

期刊:Remote SensingDOI:10.3390/rs15051195
近期，由Kaichuan Sun和Yubo Tian共同设计并完成的一项关于水下图像增强的新研究发表在*Remote Sensing*期刊2023年第15卷第1195号上。这项研究针对水下视觉系统中普遍存在的图像质量退化问题，提出了一种创新的深度学习解决方案。以下将对该研究进行全面介绍。
一、 研究作者、机构与发表信息 本研究的主要作者为孙凯川（Kaichuan Sun）和田宇波（Yubo Tian），他们均对本工作做出了同等贡献。孙凯川来自江苏科技大学海洋学院和滁州学院计算机与信息工程学院，田宇波来自广州航海学院信息与通信工程学院。论文的通讯作者为田宇波。该研究以“DBFNet: A Dual-Branch Fusion Network for Underwater Image Enhancement”为题，于2023年2月21日正式发表在学术期刊*Remote Sensing*上。这是一篇遵循知识共享CC BY协议的开源文章。
二、 研究背景与目标 本研究属于计算机视觉和水下机器人感知技术交叉领域，具体聚焦于水下图像增强（Underwater Image Enhancement, UIE）任务。水下机器人是开发和利用海洋资源的重要工具，其视觉系统如同机器人的“眼睛”，对于沉船打捞、管道检测、水生生物观察等应用至关重要。然而，光线在水体中传播时会经历选择性的吸收和散射效应，导致水下图像普遍存在严重的退化现象：不同颜色通道（红、绿、蓝）的光被吸收程度不同，引起图像整体颜色失真（例如偏蓝或偏绿）；同时，水中的悬浮颗粒（如沙砾、浮游生物）造成散射，导致图像出现不均匀的雾化效果和细节模糊。
为了解决这些问题，研究者们已开发了多种方法，主要可分为两类：基于传统物理模型的方法和基于深度学习（Deep Learning, DL）的方法。传统方法依赖于建立水下成像的数学模型，并通过先验知识估计模型参数来复原清晰图像。然而，由于水体介质和光传播环境的复杂多变，这类方法在应对复杂水下场景时往往力不从心。基于深度学习的方法通过数据驱动，学习从退化图像到清晰图像的映射关系，已展现出更优越的性能。现有的一些深度学习方法利用了注意力机制、残差学习、编码器-解码器结构以及生成对抗网络等技术，取得了一定成功。
尽管如此，当前基于深度学习的方法在复杂的真实水下场景中仍面临严峻挑战。首先，大多数方法将原始图像作为整体输入，未能充分考虑RGB不同颜色通道在水下具有不同吸收系数的物理特性，导致颜色校正效果不理想。其次，许多端到端的网络在增强过程中未能有效保留图像的高频细节信息，导致增强后的图像细节模糊，影响视觉质量。因此，本研究的主要目标是：设计一个能够同时实现精确颜色校正和清晰细节恢复的双分支融合网络（Dual-Branch Fusion Network, DBFNet），以有效消除水下图像的退化，获得色彩自然、细节丰富的高质量图像。
三、 研究流程与详细方法 本研究的工作流程主要分为网络架构设计、模块创新、实验验证与消融分析几个核心部分。
1. 整体网络架构设计 研究者提出了一种名为DBFNet的双分支融合网络。其核心思想是通过两个独立但又互补的分支分别处理颜色校正和细节恢复这两个子任务，最后通过一个智能融合模块将两个分支的优势结合起来。整个网络的输入是退化的水下图像 (I{input})，输出是增强后的图像 (I{output})。整个过程可以表述为：(I{output} = \phi{DASFM}(\phi{TCSLB}(I{input}), \phi{WDLB}(I{input})))。其中，(\phi{TCSLB}(\cdot)) 代表三颜色通道分离学习分支（Triple-Color Channel Separation Learning Branch, TCSLB），(\phi{WDLB}(\cdot)) 代表小波域学习分支（Wavelet Domain Learning Branch, WDLB），(\phi_{DASFM}(\cdot)) 代表基于双重注意力的选择性融合模块（Dual Attention-based Selective Fusion Module, DASFM）。
2. 三颜色通道分离学习分支（TCSLB） 为了针对性解决颜色失真问题，TCSLB将输入的RGB图像分离成R、G、B三个独立的通道。每个通道使用专门设计的基于多尺度注意力的残差密集模块（Multi-Scale-based Attention Res-Dense Module, MSARDM）进行特征学习。MSARDM由两部分组成： * 残差密集块（Residual Dense Block, RDB）：包含多个卷积层和PReLU激活函数，通过密集连接和残差学习来提升特征提取能力和颜色映射性能。 * 多尺度通道注意力子模块：为了增强对局部上下文特征的捕获能力，该模块将RDB输出的特征图进行多尺度缩放（尺度因子为1， 1/2， 1/4），对不同尺度的特征分别应用通道注意力机制，最后通过上采样操作将多尺度特征聚合。这样，网络可以自适应地强调三个颜色通道中潜在的颜色信息，分别调整其颜色分布，最终实现整体色彩平衡。
3. 小波域学习分支（WDLB） 为了有效恢复图像细节，WDLB在小波变换域进行特征学习。该分支采用编码器-瓶颈-解码器结构，并嵌入了专门设计的基于离散小波变换的注意力残差密集模块（DWT-based Attention Res-Dense Module, DARDM）。 * 离散小波变换（Discrete Wavelet Transform, DWT）的应用：DWT可以将图像分解为一系列具有不同频率特性的子带信号（低频LL，以及高频LH, HL, HH）。高频信号通常包含边缘和纹理等细节信息，而低频信号包含图像背景和结构信息。利用DWT的可逆性和下采样特性，可以在不损失信息的前提下扩大感受野。 * DARDM结构：该模块包含一个密集残差块和一个基于DWT的注意力模块（DWT-based Attention Module, DAM）。DAM的工作流程如下：首先，对输入特征图进行DWT分解，得到四个子带。对于包含主要结构信息的低频子带，应用像素注意力机制，使模型更关注结构特征；对于包含纹理细节的高频子带，应用空间注意力机制，使模型更关注空间细节信息。随后，对处理后的子带进行逆小波变换（IDWT）重建回特征图。通过这种方式，网络能够充分利用小波域的信息，专注于恢复清晰的纹理细节。
4. 基于双重注意力的选择性融合模块（DASFM） TCSLB和WDLB的输出结果对于最终高质量图像的贡献侧重点不同。为了自适应地融合两个分支的潜在特征，研究者设计了DASFM。该模块首先对两个分支的输出进行卷积提取浅层特征，并将其拼接。然后，通过并行的像素注意力和通道注意力机制来提取互补的特征信息。接着，将融合后的特征通过卷积和Sigmoid激活函数生成两个独立的注意力权重图（(W_t) 和 (W_w)），分别用于自适应地调整两个分支特征的贡献度。最后，将加权后的特征相加并通过卷积层生成最终的增强图像。这样，DASFM能够智能地整合来自两个分支的“悦目色彩”和“丰富细节”。
5. 损失函数与实验设置 网络训练采用混合损失函数：(L{total} = L{l1} + \lambda L{pre})，其中 (L{l1}) 是L1损失，用于衡量重建图像与参考图像之间的像素级差异；(L_{pre}) 是基于VGG-16网络的感知损失，用于确保增强图像在高级语义特征上与参考图像保持一致。通过消融实验，权重系数 (\lambda) 被设定为0.1。 实验在公开的合成水下数据集和真实世界水下数据集（UIEB）上进行。合成数据集包含9种不同水体类型，共9900张图像用于训练，3141张用于测试。真实数据集UIEB包含890对退化-高质量配对图像，其中800对用于训练，90对（Test-90）以及60张无参考的挑战性图像（Test-C60）用于测试。训练使用PyTorch框架，在NVIDIA Tesla V100 GPU上进行，采用Adam优化器和余弦退火学习率策略。
四、 主要研究结果与分析 研究通过大量的定量评估和视觉对比实验，验证了DBFNet的优越性能。
1. 在合成数据集上的结果 在包含九种不同水体类型的合成测试集上，DBFNet在峰值信噪比（PSNR）、结构相似性指数（SSIM）和均方误差（MSE）这三个全参考评价指标上，在所有水体类型中均取得了最高分数。例如，在类型1的水体中，DBFNet的PSNR达到31.93 dB，显著高于其他对比方法（次优的Ma等人方法为27.82 dB）。这表明DBFNet在图像内容保真度、对比度、结构相似性方面全面领先，能够有效校正颜色并保留细节。视觉对比图也清晰地显示，DBFNet增强后的结果在色彩和细节上最接近参考图像，而其他方法存在不同程度的色彩偏差、模糊或伪影。
2. 在真实世界数据集上的结果 为了全面评估，研究者将Test-90数据集中的图像根据视觉特征分为五类：偏蓝图像、偏绿图像、偏黄图像、浅水图像和低照度图像进行展示。 * 颜色校正性能：传统方法（如UDCP, IBLA）在复杂真实图像上表现不佳，甚至加剧了颜色失真。一些深度学习方法（如WaterNet, Chen等人的方法）存在校正不足或过度增强的问题。DBFNet在所有类别的图像上都表现出了最佳的颜色校正性能，能够有效消除色偏，恢复自然平衡的色彩。 * 细节恢复性能：UDCP、IBLA等方法由于色偏干扰，细节恢复效果差。URESNET引入了额外的背景噪声。其他方法在细节恢复上各有缺陷。相比之下，DBFNet产生了最佳的细节恢复结果，显著提升了图像的清晰度和饱和度，如图像中物体的纹理、边缘都得到了很好保留。 * 定量评估：在Test-90数据集上，DBFNet获得了最高的PSNR（24.18 dB）和SSIM（0.8729）值，相比次优的Deep-WaveNet方法分别提升了8.2%和0.8%。在无参考的Test-C60挑战集上，DBFNet在UIQM和UCIQE指标上取得了第三好的成绩，但结合视觉观感（无严重背景噪声且亮度改善更好）综合来看，DBFNet仍展现出强大而稳健的增强能力。
3. 消融实验（Ablation Studies）结果 消融实验有力地证明了DBFNet中各个组件的有效性。 * 损失函数参数：通过测试不同 (\lambda) 值，确认当 (\lambda = 0.1) 时，模型在PSNR和SSIM上取得最佳性能。 * 网络组件有效性：分别移除了WDLB分支、TCSLB分支以及DARDM中的DAM模块进行对比。完整的DBFNet模型在所有评价指标上均优于任何简化的变体。视觉上，移除任一组件虽然能在一定程度上校正颜色，但都会产生不同程度的雾化并使细节变得不清晰，这直接证明了TCSLB、WDLB以及DARDM中的小波注意力机制对于同时实现色彩校正和细节恢复是不可或缺的。 * 融合方法有效性：将设计的DASFM与简单的元素相加（Summation）和通道拼接（Concatenate）融合方法进行对比。结果显示，DASFM在PSNR和SSIM上取得了最高分，并且在视觉上能更有效地消除蓝色雾霾干扰，使结果更接近参考图像，证明了其自适应融合策略的优势。
五、 研究结论与价值 本研究成功开发了一种新颖的用于水下图像增强的双分支融合网络DBFNet。该网络通过TCSLB分支独立学习RGB通道特征以平衡色彩分布，通过WDLB分支充分利用小波域信息以保护并恢复图像细节，最后通过DASFM模块智能融合双分支优势。广泛的定量和可视化评估表明，DBFNet在合成和真实水下数据集上均优于现有的先进方法，能够显著提升水下图像的视觉质量。
其科学价值在于：提出了一种将颜色通道分离学习与频域（小波域）特征学习相结合的创新网络架构，为解决水下图像增强中“颜色校正”与“细节恢复”这两个耦合难题提供了新的思路和有效的技术方案。所设计的MSARDM、DARDM和DASFM等模块具有明确的针对性和良好的性能。
其应用价值在于：DBFNet能够为水下机器人、水下监测、海洋考古、水产养殖等领域的视觉系统提供更清晰、更可靠的图像数据，从而提升相关系统的环境感知、目标识别和决策能力，具有重要的实际工程应用前景。
六、 研究亮点 1. 创新的双分支架构：针对水下图像退化的两个核心问题（颜色失真和细节丢失），设计了分工明确、互补性强的双分支处理流程，思路清晰，效果显著。 2. 引入小波变换域学习：将离散小波变换与深度学习相结合，利用DWT在频域分解的特性，使网络能够显式地关注和处理包含细节信息的高频成分，为细节恢复提供了强有力的工具。 3. 模块设计的针对性：TCSLB中的多尺度通道注意力、WDLB中的小波域注意力（区分处理低频和高频子带）、以及融合阶段的DASFM，这些模块的设计都紧密围绕具体子任务的需求，体现了精细化的设计思想。 4. 全面且严谨的验证：不仅在合成数据集上取得了压倒性的定量优势，更在真实水下图像上进行了详尽的分类视觉对比和定量分析，并辅以系统的消融实验，充分证明了模型各组成部分的有效性和方案的鲁棒性。
七、 其他说明 作者在结论中也指出了当前工作的一个局限：所设计的DASFM模块相较于简单的拼接操作，其性能提升幅度有限。这表明在特征融合策略上仍有优化空间。作者表示，未来将继续深入研究融合模块，以期获得更好的视觉增强效果。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问