基于强化Swin-Convs Transformer的水下感知场景图像同步增强与超分辨率方法

分享自：
基于强化Swin-Convs Transformer的水下感知场景图像同步增强与超分辨率方法

期刊:ieee transactions on geoscience and remote sensingDOI:10.1109/tgrs.2022.3205061
好的，作为一名资深的学术记者，我将为您撰写一份关于这篇学术论文的详细报告。
关于《Reinforced Swin-Convs Transformer for Simultaneous Underwater Sensing Scene Image Enhancement and Super-Resolution》的学术研究报告
本文由Tingdi Ren, Haiyong Xu, Gangyi Jiang, Mei Yu, Xuan Zhang, Biao Wang, 以及Ting Luo等人合作完成。作者团队主要来自中国宁波大学数学与统计学院和宁波大学信息科学与工程学院。该研究成果于2022年发表在国际知名期刊《IEEE Transactions on Geoscience and Remote Sensing》上，卷期为第60卷。
本研究的学术领域属于计算机视觉与遥感图像处理，具体聚焦于水下图像恢复技术。水下图像在海洋勘探、环境监测和生物研究等领域至关重要。然而，由于水中光的吸收和散射效应，以及成像设备的限制，获取的水下图像普遍存在颜色失真（如蓝绿色偏）、细节模糊、对比度低、且分辨率往往不高。传统的解决方案通常将“水下图像增强”（Underwater Image Enhancement, UIE）和“超分辨率”（Super-Resolution, SR）视为两个独立的任务，分别训练网络进行处理。这不仅计算效率低下，而且在复杂的非均匀水下环境中，单一任务的网络可能无法处理由另一种退化带来的信息损失。因此，研究团队提出，在一个单一网络中实现“同步增强与超分辨率”（Simultaneous Enhancement and Super-Resolution, SESR）更具实用价值和挑战性。现有方法主要基于卷积神经网络（Convolutional Neural Network, CNN）或生成对抗网络（Generative Adversarial Network, GAN）。CNN擅长捕捉局部特征，但在建模图像长距离的全局依赖关系上存在局限，而全局信息（如场景深度、介质分布）对于准确估计水下退化模型参数至关重要。近年来，源于自然语言处理的Transformer架构，特别是Vision Transformer（ViT）及其变体Swin Transformer，因其强大的全局建模能力在计算机视觉领域取得巨大成功。然而，Transformer本身缺乏CNN固有的局部性和平移不变性等归纳偏置（inductive bias），在小规模数据集（水下高质量配对数据通常稀缺）上可能表现不佳。基于以上背景，本研究旨在设计一种新颖的端到端网络，以U-Net为基础架构，巧妙地融合Swin Transformer和CNN的优势，构建一个能够同时捕获全局依赖性和局部细节注意力的模型，以实现更优的水下图像同步增强与超分辨率。
研究详细工作流程： 本研究核心是提出并验证一个名为“基于U-Net的强化Swin-Conv Transformer同步增强与超分辨率网络”（U-Net-based Reinforced Swin-Convs Transformer for Simultaneous Enhancement and Super-Resolution, URSCT-SESR）。
1. 网络整体架构设计： 整体网络采用经典的编码器-瓶颈-解码器（Encoder-Bottleneck-Decoder）U型结构。编码器负责将输入的低质量水下图像映射到更深的特征空间，并通过下采样逐步扩大感受野、增加通道数。瓶颈层位于网络最深处，用于学习并强化最关键的高级特征。解码器则负责从特征空间重建出高质量图像，通过上采样逐步恢复空间分辨率并减少通道数。最终输出层根据任务需求（仅增强、仅超分、或同步任务）生成目标尺寸的RGB图像。
2. 核心创新模块：强化Swin-Conv Transformer模块（Reinforced Swin-Convs Transformer Block, RSCTB）： 这是本研究最核心的创新点。研究团队在标准Swin Transformer模块（Swin Transformer Block, STB）的基础上进行了关键改造。 * 动机：标准STB通过多头自注意力机制（基于窗口和移位窗口）能有效捕捉全局依赖，但其生成查询（Query）、键（Key）、值（Value）向量的线性投影层仅进行全局空间交互，对局部细节的捕捉能力弱于CNN。在水下图像恢复中，局部纹理和边缘信息同样重要。 * 改进方法：研究团队提出了两种融合卷积的方式，并最终采用了更优的“方式一”。该方法没有改变STB核心的自注意力计算机制，而是将生成Q、K、V的单一线性层，替换为两个连续的卷积层。具体来说，首先使用一个1x1卷积在通道维度上进行特征变换（类似于线性层但具有更强的通道间交互能力），然后使用一个3x3卷积在空间维度上进行局部特征提取。这种“先通道后空间”的卷积组合，被设计为在通道和空间两个维度上同时“强化”（Reinforce）局部注意力，为网络注入了有益的CNN归纳偏置，使其在有限数据下能更好地学习水下图像退化的局部模式。 * 模块堆叠：在网络中，多个RSCTB成对堆叠构成“强化Swin-Convs Transformer层”，其中交替使用基于窗口的自注意力（W-MSA）和基于移位窗口的自注意力（SW-MSA），以确保跨窗口的信息交互。这些层被嵌入到U-Net的编码器、瓶颈和解码器的关键路径中，替代了传统的纯卷积块。
3. 损失函数设计： 为了在恢复整体色彩和对比度的同时，保留细腻的纹理细节，研究团队设计了一个复合损失函数。该函数是三个损失项的加权和： * Charbonnier损失：作为L1损失的鲁棒变体，用于最小化重建图像与参考图像之间的像素级差异，促进整体色彩和结构的恢复。 * 梯度损失：计算重建图像与参考图像梯度图之间的L1损失，旨在捕捉高频边缘信息，使增强后的图像边缘更锐利。 * 多尺度结构相似性损失（MS-SSIM损失）：通过衡量图像在多尺度下的结构相似性，引导网络关注图像的感知质量，保持自然的结构信息。 通过调整这三个损失项的权重，网络能够在整体恢复效果和局部纹理细节之间取得平衡。
4. 实验设计与数据处理流程： 研究团队在五个主流的水下图像数据集上进行了全面的实验验证，包括UIEB、LSUI、SQUID（用于UIE任务评估），以及UFO-120和USR-248（用于SR和SESR任务评估）。实验分为多个阶段： * 数据集准备：对于UIE任务，将退化图像和参考图像统一调整为256x256分辨率。对于SR任务，使用双三次插值下采样高分辨率图像生成低分辨率输入，例如对4倍超分，将256x256的参考图下采样为64x64作为输入。训练数据进行了随机裁剪、翻转和旋转等数据增强。 * 训练细节：模型使用PyTorch框架实现，在NVIDIA RTX 3090 GPU上训练。采用Adam优化器，初始学习率为5e-4，配合余弦退火学习率衰减策略，共训练800个epoch。批处理大小设置为8。网络超参数如窗口大小设为8，嵌入维度为32，每个RSCTB的头数为8等。 * 评估流程： * 定性比较：在测试集上可视化对比了URSCT-SESR与多种前沿方法的增强和超分结果，涵盖了阴影、纹理、模糊、蓝/黄/绿色偏等多种典型水下退化场景。 * 定量比较： * 全参考评估：对于有参考图像的测试集（如UIEB的测试子集），使用峰值信噪比（PSNR）和结构相似性指数（SSIM）衡量恢复图像与参考图像的接近程度。 * 无参考评估：对于无参考图像的测试集（如UIEB中的60张挑战性图像），使用水下图像质量度量（UIQM）和水下图像色彩质量评价（UCIQE）来评估图像的视觉感知质量。 * 跨数据集评估：为了测试模型的泛化能力，研究团队在一个数据集上训练模型，然后在另一个不同来源的数据集上进行测试，并比较性能。 * 消融研究：通过控制变量实验，验证了RSCTB中卷积融合方式（比较提出的“方式一”与另一种“方式二”及原始线性层）以及复合损失函数中各组件（Charbonnier损失、梯度损失、MS-SSIM损失）的必要性和有效性。
研究主要结果： 1. 水下图像增强（UIE）性能： * 在UIEB等有参考数据集上，URSCT-SESR在PSNR和SSIM指标上均达到了最优性能，相比次优方法有显著提升（PSNR提升8.3%，SSIM提升6.1%）。视觉对比显示，该方法在去除颜色伪影（如蓝/绿色偏）、恢复细节纹理、提升对比度方面表现出色，尤其在阴影、模糊和严重颜色失真的场景中优势明显。 * 在无参考的挑战性数据集上，虽然UIQM和UCIQE指标对某些颜色偏差不敏感（导致部分物理模型方法得分虚高），但排除这些方法后，URSCT-SESR在UCIQE上达到最优，在UIQM上表现优异。视觉对比证实，该方法能更有效地恢复真实色彩和细节，避免过度增强或引入人工伪影。
超分辨率（SR）与同步增强超分（SESR）性能：
在UFO-120数据集上进行SESR（2倍和4倍），URSCT-SESR在PSNR和SSIM上均大幅超越对比的CNN和GAN方法（例如在2倍任务上，PSNR和SSIM分别领先5.5%和8.1%）。结果表明，该网络不仅能提升分辨率，还能同步改善图像色彩和质量。
在USR-248数据集上进行纯SR任务，URSCT-SESR在2倍任务上表现最佳，在4倍任务上PSNR略低于最优方法但SSIM更高。分析指出，在极高倍率（4倍）且数据集规模有限时，LR图像本身信息严重不足，网络学习高频轮廓信息面临挑战，导致部分边缘存在锯齿感。
跨数据集评估结果：当在一个数据集（如LSUI）上训练，在另一个数据集（如UIEB）上测试时，URSCT-SESR表现出良好的泛化能力，能够迁移学习到的颜色校正和纹理生成能力。然而，当训练集和测试集任务性质差异较大时（如在包含SR信息的UFO-120上训练，在纯UIE任务的UIEB上测试），性能会下降，这提示了未来设计多任务自适应网络的重要性。
消融研究结果：
RSCTB模块验证：提出的卷积融合“方式一”（系列结构）在视觉和定量指标上均优于原始线性层和另一种并行融合“方式二”。它能更有效地避免蓝绿色伪影，恢复更自然的局部细节。
损失函数验证：完整的复合损失函数（包含三项）取得了最佳效果。移除梯度损失会导致颜色过渡区域出现不连贯块效应和颜色偏差；移除MS-SSIM损失会影响整体色彩的准确性。这证明了所设计损失函数的各个组件对于实现高质量恢复都是必要的。
研究结论与价值： 本研究成功提出并验证了一种新型的URSCT-SESR网络，用于水下图像的同步增强与超分辨率。其核心贡献在于：1）首次在一个端到端的U-Net架构中，创新性地融合了Swin Transformer的全局建模能力和CNN的局部特征提取优势，通过设计RSCTB模块，在保留注意力机制核心的同时，强化了通道和空间维度的局部注意力。2）设计了一种平衡整体恢复与细节保持的多目标损失函数。大量实验证明，该网络在主观视觉质量和客观评价指标上均达到了当前最优水平，尤其在去除颜色伪影、恢复纹理细节方面优势显著。这项工作为处理复杂、动态的非均匀水下环境图像提供了一种有效的解决方案，具有明确的科学价值（推动了Transformer与CNN融合模型在低质图像恢复领域的发展）和应用潜力（可服务于水下机器人视觉、海洋遥感分析等实际场景）。
研究亮点： 1. 方法新颖性：提出的“强化Swin-Convs Transformer模块”（RSCTB）是本研究最大的亮点。它提供了一种巧妙且有效的范式，将卷积的局部归纳偏置注入到Transformer的全局注意力框架中，而不破坏其核心机制，这在结构设计上具有创新性。 2. 任务整合：着眼于更具实用价值的“同步增强与超分辨率”任务，而非孤立地解决单一问题，体现了研究的前瞻性和实用性导向。 3. 全面且深入的验证：研究在多个公开数据集上进行了涵盖定性、定量、跨数据集泛化以及详尽的消融实验，论证充分，结论可靠。不仅证明了整体方法的优越性，还深入剖析了关键组件的作用。 4. 对现实挑战的关注：研究在讨论部分坦诚地指出了模型在一些极端案例（如严重过曝或红色通道信息严重衰减）中的失败，并分析了原因（缺乏正确的归纳偏置），同时探讨了模型在实用化过程中面临的输入尺寸限制问题，为后续研究指明了方向（如结合物理模型先验、优化下采样策略等）。
其他有价值内容： 论文在引言和讨论部分对水下图像退化的物理模型（简化的大气散射模型）进行了阐述，强调了全局信息（如深度图d(x)和波长参数λ）对于UIE的重要性，这为引入Transformer提供了理论依据。此外，文章还详细综述了基于深度学习的UIE和SISR方法的发展脉络，包括基于CNN、GAN以及新兴的Transformer的方法，为读者提供了清晰的领域背景。作者在文末展望中提出，未来将尝试解决输入尺寸灵活性、引入物理过程建模以及结合高级视觉任务来进一步提升模型的实用价值，这些思考具有启发性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问