DDTransformer：用于水下图像增强的维度分解Transformer与半监督学习

分享自：
DDTransformer：用于水下图像增强的维度分解Transformer与半监督学习

信息科学
人工智能
生物医学工程
计算机科学
医学
期刊:Knowledge-Based SystemsDOI:10.1016/j.knosys.2024.111977
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：DDFormer——基于维度分解Transformer与半监督学习的水下图像增强方法
一、 研究作者、机构与发表信息
本研究由来自中国和英国多个学术机构的学者合作完成。第一作者是 Zhi Gao，通讯作者是 Jing Yang。主要研究机构包括：中国的合肥学院人工智能与大数据学院 (a)、合肥师范学院 (b) 以及英国的爱丁堡龙比亚大学计算学院 ©。该研究成果以学术论文形式发表在 Knowledge-Based Systems 期刊的第297卷，于2024年5月23日在线发表，论文的具体标题为《DDformer: Dimension decomposition transformer with semi-supervised learning for underwater image enhancement》。
二、 学术背景与研究目标
本研究的主要科学领域属于计算机视觉，具体聚焦于低层视觉任务中的水下图像增强 (Underwater Image Enhancement, UIE)。研究背景源于视觉引导的自主水下航行器 (Autonomous Underwater Vehicles, AUVs) 在海洋勘探、物种监测、救援等领域日益增长的应用需求。然而，水下复杂的光学环境——包括水对光的吸收以及前向、后向散射——导致获取的图像普遍存在颜色失真、模糊、雾化、低照度等多种退化问题，严重限制了AUVs的视觉感知能力，阻碍了其在复杂水下环境中的进一步应用。
近年来，深度学习，特别是卷积神经网络 (Convolutional Neural Networks, CNN) 和生成对抗网络 (Generative Adversarial Networks, GAN) 的进步，极大地推动了UIE技术的发展。同时，Transformer架构凭借其强大的自注意力机制和全局建模能力，在自然语言处理和计算机视觉领域取得了显著成功，并开始被引入UIE任务。然而，将Transformer直接应用于UIE面临三大核心挑战：1）计算开销巨大，难以直接在原始高分辨率图像上计算像素级全局注意力；2）Transformer本身不擅长提取局部特征，可能导致增强后的图像细节模糊；3）真实水下场景中，同时获取退化的图像及其对应的清晰“地面实况”(ground truth) 图像极为困难，高质量配对数据集的稀缺限制了基于监督学习的深度模型的泛化能力。
基于以上背景，本研究旨在解决这些挑战，提出一种新型的水下图像增强框架。具体研究目标包括：开发一种能够直接在原始图像尺度上高效计算全局依赖关系的Transformer模块；设计一种策略以融合全局与局部信息，并关注图像中退化严重的区域；构建一个半监督学习框架以减少对配对数据集的依赖，并提升模型的泛化能力。最终，目标是提出一个性能优越、计算高效且泛化能力强的水下图像增强模型，以提升AUVs的视觉工程应用性能。
三、 详细研究流程与方法
本研究提出的方法命名为DDFormer，其工作流程主要包括网络架构设计、训练策略制定、实验验证与分析三个核心部分。
1. 网络架构设计： DDFormer整体采用基于GAN的框架，包含一个生成器 (Generator) 和一个判别器 (Discriminator)。 * 生成器： 采用类似U-Net的对称编码器-解码器结构，包含6层编码和6层解码。其核心创新在于引入了维度分解局部增强Transformer模块 和多阶段Transformer策略。 * 维度分解局部增强Transformer模块：该模块旨在解决Transformer计算成本高和不擅长局部特征提取的问题。它包含两个核心组件：维度分解注意力 和局部增强 模块。 * DDA：受坐标注意力启发，设计了一个可学习的分解块 (Learnable Decomposition Block, LDB)，将二维特征图沿着高度和宽度方向分解为两个一维向量。然后对这两个一维向量分别进行自注意力计算，再将结果相乘并叠加回原始特征。这种方法将计算全局注意力的时间复杂度从O(H²W²)降至O((H+W)²)，使得在高分辨率图像上直接计算像素级全局依赖成为可能，有助于有效校正颜色失真。 * LE：用包含三个卷积层（Conv-BN-LeakyReLU）的模块替代标准Transformer中的多层感知机 (MLP)，利用CNN的优势来增强局部特征关联，从而丰富图像的细节和纹理。 * 多阶段Transformer策略：根据特征图的空间尺度，将网络分为高分辨率阶段 (HS) 和低分辨率阶段 (LS)。在HS（编码器前4层和解码器后4层），使用DDA模块来充分捕捉低层颜色信息。在LS（编码器后2层和解码器前2层），特征图尺度较小，直接使用自注意力局部增强Transformer模块 来计算全局自注意力，以提取高层语义信息并加强对严重退化区域的关注。这种策略满足了UIE任务对多尺度全局信息提取的需求。 * 特征整合单元：在解码器输出后，设计了一个FIU，通过长跳跃连接将原始输入、解码器输出特征以及经过进一步整合的特征融合，最终输出增强后的图像，旨在保留原始内容并避免过深网络导致的退化。 * 判别器： 设计了一个多尺度融合判别器。它在基础的PatchGAN结构上，增加了一个多尺度提取模块 (Multi-scale Extraction Module, MEM)。MEM使用三个不同卷积核尺寸的并行卷积层直接提取输入图像的多尺度信息，并将其融合到判别器的主干网络中。这种设计增强了判别器对输入图像的敏感性，能更好地指导生成器训练。
2. 训练策略与数据处理： 为了应对配对数据稀缺的问题，本研究设计了一种两阶段半监督学习 训练策略。 * 数据集构建：训练集结合了合成数据和真实数据。使用了从UWCNN合成数据集中选取的5种类型共7000对图像，以及从LSUI数据集中获取的5004对（通过其他UIE方法生成参考图像）图像，总计12004对图像作为配对数据。此外，还从网络和公共数据集中收集了400张无配对的真实水下图像。 * 两阶段训练： * 预学习阶段：仅使用配对数据训练GAN。此阶段主要让MFD学会区分清晰（地面实况）图像和生成图像，并让生成器通过L1损失学习初步的映射关系。 * 半监督学习阶段：在预学习完成后，同时使用配对数据和无配对数据训练生成器。无配对数据的对抗损失使生成器能更好地捕捉真实水下图像的数据分布，从而提升泛化能力。判别器在此阶段继续与生成器对抗训练。 * 损失函数：总体损失结合了Wasserstein GAN损失（用于稳定训练）和L1损失（用于保持图像内容并接近地面实况）。在预学习阶段，生成器损失为L1损失和WGAN损失加权和；在半监督阶段，额外加入了基于无配对数据的WGAN损失项。
3. 实验验证与分析流程： 研究进行了系统性的实验来验证DDFormer的性能。 * 对比方法：选取了4种传统UIE方法（如EUF, IBLA）和5种基于深度学习的SOTA方法（如WaterNet, U-shape Transformer）进行对比。所有深度学习方法均在相同的训练集上重新训练以确保公平。 * 测试数据集：使用了三个广泛认可的公开水下图像数据集进行测试：UIEB（包含有参考图像的原始子集和极具挑战性的子集）、RUIE（包含不同颜色偏差和失真类型的子集）、以及SQuID（用于评估颜色校正能力的色卡图像）。 * 评估指标：对于有参考图像的数据集（UIEB-raw），使用全参考指标：均方误差 (MSE)、峰值信噪比 (PSNR)、结构相似性 (SSIM)。对于所有测试集，均使用无参考指标：水下图像质量度量 (UIQM)、水下图像颜色质量评价 (UCIQE)、盲/无参考图像空间质量评估器 (BRISQUE)、图像熵 (Entropy)。 * 消融实验：为了验证各个核心组件的有效性，设计了多组消融实验，分别移除了半监督学习、使用简单U-Net、仅使用DIT（无多阶段策略）、移除局部增强模块LE、使用基础判别器 (PatchGAN) 等，并对比其性能。 * 下游应用测试：为了证明增强后图像对高层视觉任务的实际价值，在增强后的图像上进行了特征点匹配 (SIFT)、边缘检测 (Canny)、目标检测 (YOLOv5) 和显著性检测 (F3Net) 等下游视觉工程任务的测试。
四、 主要研究结果
实验结果表明，DDFormer在主观视觉质量和客观评价指标上均优于对比的SOTA方法。
在UIEB数据集上的定量与定性结果：在UIEB-raw（有参考）数据集上，DDFormer在MSE、PSNR和SSIM三个全参考指标上均取得最佳值。与第二名相比，MSE降低10.5%，PSNR提升4.9%，SSIM提升1.5%。这表明DDFormer增强的图像最接近参考图像，网络学习能力最强。在UIQM和BRISQUE无参考指标上也排名第一。视觉对比显示，对于雾化、绿色/蓝色/黄绿色偏、低照度等多种典型退化场景，DDFormer在颜色校正、细节恢复、对比度提升和避免过度增强方面均表现最佳。在更具挑战性的UIEB-challenging子集（无参考）上，DDFormer也取得了优异的视觉改善效果。
在RUIE和SQuID数据集上的结果：在RUIE-UCCS（颜色偏差）子集上，DDFormer能有效去除水体颜色，校正颜色失真，其增强图像在RGB颜色空间中的像素分布更为均匀合理。在RUIE-UIQS（多种失真程度）子集上，DDFormer能同时处理颜色失真和细节模糊问题。在SQuID色卡图像上，DDFormer展现了卓越的颜色校正能力，恢复的颜色最自然，对比度最佳。定量指标上，DDFormer在RUIE的两个子集的多数无参考指标上位列前三，且在深度学习对比方法中表现最佳。
消融实验结果：消融实验清晰地证明了每个核心组件的贡献。移除半监督学习 (DDformer-ns) 会导致局部过亮和整体偏白；仅使用简单U-Net则颜色校正差、对比度低、边缘模糊；仅使用DIT (onlyDIT) 无法有效处理区域退化不均，导致局部内容丢失；移除局部增强模块 (nolocal) 会使图像细节模糊；使用基础判别器 (basicd) 可能导致局部增强错误。完整的DDFormer模型取得了最佳的全参考指标。
计算效率分析：相比其他深度学习方法，DDFormer具有较快的处理速度（平均运行时间0.0505秒），仅次于主要追求速度的UWCNN方法。相较于同为Transformer架构的U-shape方法，速度提升了近7倍，实现了图像质量与处理效率的良好平衡。
下游应用提升：下游任务测试结果证实了DDFormer的实用价值。在SIFT特征点匹配和Canny边缘检测任务中，经DDFormer增强的图像能检测到最多匹配特征点和边缘。在使用YOLOv5进行水下目标检测和F3Net进行显著性检测的任务中，在DDFormer增强的图像上，模型能检测到更多数量和类别的目标，且显著性区域更完整。这表明DDFormer增强的图像能有效提升高层视觉模型的感知性能，对AUVs的视觉工程应用具有显著促进作用。
五、 研究结论与价值
本研究成功提出并验证了DDFormer，这是一个创新的、融合了维度分解Transformer与半监督学习的水下图像增强框架。其主要贡献和结论总结如下： * 方法学贡献：1) 提出的DDA机制使Transformer能够高效地在高分辨率原始图像尺度上计算全局注意力，有效应对颜色失真。2) 设计的LE模块和多阶段Transformer策略，弥补了Transformer在局部特征提取上的不足，并实现了对多尺度全局信息及严重退化区域的差异化关注。3) 构建的半监督学习框架和MFD，降低了对稀缺配对数据集的依赖，提升了模型的泛化能力和训练稳定性。 * 性能价值：大量实验证明，DDFormer在多个公开数据集上的性能超越了现有的SOTA方法，不仅在主观视觉感知上更优，在全面的客观评价指标上也领先。同时，其处理速度能满足实时任务的需求。 * 应用价值：DDFormer显著提升了增强后图像在下游视觉任务（如特征匹配、目标检测）中的表现，为视觉引导AUVs在实际水下工程应用中的效能提升提供了强有力的技术支持。
六、 研究亮点
创新性网络模块：首次将维度分解注意力机制引入水下图像增强的Transformer中，创造了DIT模块，巧妙地在全局建模能力和计算效率之间取得了突破性平衡。
系统性的架构设计：提出的多阶段Transformer策略、局部增强补偿机制以及多尺度融合判别器，构成了一套完整且协同的解决方案，系统地应对了UIE任务中的多个关键难题。
有效的训练范式：设计的两阶段半监督学习策略，务实且有效地缓解了水下图像领域配对数据匮乏的核心瓶颈，增强了模型的实用性和泛化能力。
全面的实验验证：不仅进行了常规的定量定性对比和消融实验，还深入进行了下游视觉应用测试，有力地证明了所提方法的理论先进性和实际应用价值。
七、 其他有价值内容
论文在最后部分也坦诚分析了DDFormer的不足之处（失败案例分析），例如对于原始图像中内容完全丢失的区域，或分辨率极低且模糊的图像，DDFormer的恢复和增强能力仍然有限。这为未来的研究工作指出了改进方向。作者展望未来，可以将研究重点进一步转向服务于高层视觉应用的UIE，并尝试将扩散模型等新兴生成技术应用于UIE任务，以生成更接近真实地面实况的图像。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问