用于水下图像增强的U形Transformer

分享自：
用于水下图像增强的U形Transformer

光信息科学与光电子学
人工智能
期刊:IEEE Transactions on Image ProcessingDOI:10.1109/TIP.2023.3276332
【点击此处】阅读全文、收藏及针对性提问
本文介绍了一项发表于2023年《IEEE Transactions on Image Processing》第32卷的研究，题为“U-Shape Transformer for Underwater Image Enhancement”。该研究由北京理工大学复杂系统智能感知与协同控制教育部重点实验室及北京理工大学长三角研究院（嘉兴）的彭林涛、朱春丽（IEEE会员）和卞立恒完成。
学术背景与动机 本研究属于计算机视觉和计算摄影领域，具体聚焦于水下图像增强（Underwater Image Enhancement, UIE）技术。水下图像在海洋勘探、生物学、考古学和水下机器人等领域具有广泛应用。然而，由于水体中杂质对光的吸收和散射作用，导致拍摄的水下图像普遍存在颜色失真、色偏、对比度低、细节模糊等质量问题。为了改善图像质量，研究者们发展出了基于视觉先验、物理模型和数据驱动的多种方法。视觉先验方法侧重调整像素值以改善视觉质量，但忽略物理退化过程；物理模型方法基于水下成像模型进行逆向恢复，但其性能严重依赖于模型假设在复杂多变真实场景中的适用性；近年来，数据驱动方法，尤其是基于深度学习的技术，在UIE任务中展现出巨大潜力。
然而，当前数据驱动UIE技术的发展面临两大瓶颈：一是缺乏大规模、涵盖多样化真实水下场景且包含高质量参考图像的训练数据集，这限制了模型的泛化能力；二是现有方法未能充分、统一地考虑水下图像在不同颜色通道和不同空间区域存在的非一致性衰减特性。因此，本研究旨在解决这两个核心问题：构建一个更优质的数据集，并提出一种新颖的神经网络架构，以更精准地恢复水下图像。
详细研究流程 本研究主要包括两大核心工作：构建大规模水下图像数据集（LSUI）和提出用于UIE任务的U形Transformer网络（U-Shape Transformer）。
1. 大规模水下图像数据集（LSUI）构建流程 * 数据收集：研究团队收集了总计8018张水下图像，来源包括自行采集、网络及公开数据集，力求涵盖丰富的水下场景（如不同水体类型、光照条件、拍摄目标）。 * 参考图像生成与筛选：这是构建高质量配对数据集的关键步骤，采用了两轮主观与客观相结合的评价流程。 * 第一轮筛选：首先，利用18种现有最优UIE方法对每张原始图像进行处理，得到18张候选增强图像。接着，使用无参考图像质量指标UIQM和UCIQE对候选图像进行初步评分，每张原始图像保留评分前三的候选图像。然后，邀请20位具有图像处理经验的志愿者，根据对比度、饱和度、色彩校正效果、伪影程度、过/欠增强程度这五个关键维度，对候选图像进行评分（0-10分）。最终，为每张原始图像选择总分最高的图像作为初步参考图像，并剔除了最高总分低于70的图像对。 * 第二轮优化：针对第一轮得到的参考图像可能仍存在的模糊、色偏等问题，再次邀请志愿者进行问题诊断，并采用适当的图像增强方法进行优化。之后，进行新一轮投票，剔除半数以上志愿者仍不满意的图像对。 * 附加标注：为了提升数据集的实用性，研究团队还为每张原始图像手动标注了语义分割图，并利用现有方法生成了介质透射图。 * 最终数据集：经过上述严格流程，最终构建的LSUI数据集包含4279组真实世界水下图像数据。每组数据包含：原始水下图像、高质量清晰参考图像、语义分割图以及介质透射图。与现有数据集（如UIEB）相比，LSUI在图像数量、水下场景多样性（包括深海、水下洞穴等新场景）、目标类别、水体类型和光照条件方面都更为丰富。
2. U形Transformer网络的设计、训练与验证流程 本研究提出了一种新颖的U形Transformer网络，其核心是解决颜色通道和空间区域的非一致性衰减问题。 * 网络整体架构：该网络是一个生成对抗网络（GAN），包含一个生成器和一个判别器。 * 生成器：采用U形编码器-解码器结构。其创新在于引入了两个专门设计的Transformer模块：通道级多尺度特征融合Transformer（Channel-wise Multi-scale Feature Fusion Transformer, CMSFFT）和空间级全局特征建模Transformer（Spatial-wise Global Feature Modeling Transformer, SGfmt）。 * SGfmt模块：替换了原U-Net的瓶颈层，用于建模图像的全局信息并强化网络对退化严重空间区域的关注。它将特征图转换为序列，加入可学习的位置编码，然后通过包含多头自注意力机制的标准Transformer层进行处理，能够有效捕获长距离依赖关系。 * CMSFFT模块：替换了原U-Net的跳跃连接。它接收编码器不同尺度的特征图作为输入，通过通道级的多头注意力机制，对不同尺度的特征进行融合，并引导网络更加关注衰减更严重的颜色通道。该模块使用了实例归一化而非批量归一化，以促进更平滑的梯度流动。 * 判别器与多尺度梯度连接：判别器也采用多尺度结构，并通过多尺度梯度连接与生成器相连。这种设计使得梯度可以在多个尺度上在生成器和判别器之间自由流动，从而使训练过程更稳定，并丰富生成图像的细节。 * 新颖的多颜色空间损失函数：为了进一步改善输出图像的对比度和饱和度，本研究设计了一个结合RGB、Lab和Lch颜色空间的损失函数。该函数在RGB空间使用L2/L1损失，在Lab空间结合L2损失和a、b通道的交叉熵损失，在Lch空间结合L通道的交叉熵损失以及c、h通道的L2损失。这种设计融合了不同颜色空间的优势，更符合人类视觉感知特性。 * 网络训练：使用LSUI数据集进行训练。训练过程中采用了Adam优化器，总迭代800轮，并设置了分阶段变化的学习率。损失函数是标准GAN损失与上述多颜色空间损失函数的加权和。 * 实验验证流程：为了全面评估所提方法，研究进行了详尽的实验。 * 颜色空间选择实验：通过实验对比不同颜色空间（RGB, HSV, Lab, Lch, YCbCr）构建损失函数的效果，最终选定RGB、Lab和Lch作为多颜色空间损失函数的组成部分。 * 数据集评估：将其他UIE网络（如U-Net, WaterNet, Ucolor）分别在LSUI、UIEB和EUVP数据集上重新训练，并在测试集上比较性能，验证了LSUI数据集能有效提升网络的增强能力和泛化性能。 * 网络架构评估： * 全参考评估：在Test-L400和Test-U90两个有参考测试集上，与10种先进UIE方法（涵盖物理模型、视觉先验和数据驱动方法）进行定量（PSNR, SSIM）和定性（视觉对比）比较。同时比较了参数量、计算复杂度和运行时间。 * 无参考评估：在Test-U60和SQuID两个无参考测试集上，使用UCIQE、UIQM、NIQE等指标以及人工感知评分进行性能比较。 * 颜色校正性能评估：在Color-Checker7数据集上，使用CIEDE2000色差指标，定量比较不同方法恢复色彩的真实性和准确性。 * 与其他图像复原网络的比较：将U-Shape Transformer与SwinIR、Uformer等其他先进的通用图像复原网络在UIE任务上进行比较，证明其网络结构设计针对UIE任务的优势。 * 消融研究：通过逐步添加CMSFFT、SGfmt、多尺度梯度连接和多颜色空间损失函数等模块，验证每个组件对最终性能的贡献，并证明性能提升并非仅仅源于参数量的增加。
主要结果 1. LSUI数据集：成功构建了目前最大规模的、包含高质量参考图像的真实水下图像配对数据集。数据评估实验表明，使用LSUI训练的网络在各种测试集上均能获得更高的PSNR和SSIM分数，证明了该数据集的质量和普适性。 2. 颜色空间选择：实验结果表明，使用Lab、Lch和RGB颜色空间组合的损失函数，在测试集上取得了最高的PSNR性能。 3. 网络性能： * 定量结果：在所有的全参考测试中，U-Shape Transformer在PSNR和SSIM指标上均取得了最佳性能，且其参数量和计算量相对较少。在无参考评估中，其人工感知评分（PS）和NIQE指标也表现最佳。 * 定性结果：视觉对比显示，U-Shape Transformer的输出图像在颜色保真度、对比度、饱和度以及细节恢复方面均最接近参考图像，能有效消除色偏和伪影，而其他对比方法普遍存在不同程度的颜色失真、局部过增强或细节丢失问题。 * 颜色校正：在Color-Checker7数据集上，U-Shape Transformer在多数相机拍摄的图像上取得了最低的CIEDE2000色差，平均得分最优，证明了其卓越的色彩恢复能力。 * 消融研究结果：实验数据清晰表明，完整的模型（包含所有提出模块）性能最优。去除任一模块都会导致性能下降，验证了CMSFFT、SGfmt、多尺度连接和多颜色空间损失函数各自的有效性及其协同作用。
结论与价值 本研究取得了以下结论：首先，成功发布了一个大规模、高质量、多用途的LSUI水下图像数据集，为UIE领域的进一步研究提供了宝贵资源。其次，提出并验证了一种创新的U-Shape Transformer网络，其核心贡献在于首次将Transformer引入UIE任务，并通过专门设计的CMSFFT和SGfmt模块，有效地建模并补偿了水下图像在颜色通道和空间区域上的非一致性衰减，从而实现了更精准的图像增强。最后，设计的多颜色空间损失函数进一步提升了输出图像的视觉质量。这项研究在科学上为UIE领域提供了一种新的基于注意力机制的解决方案框架；在应用上，其增强算法可显著提升水下视觉系统的成像质量，对海洋探测、水下作业等相关领域具有重要的实用价值。
研究亮点 1. 数据集创新：构建了目前规模最大、场景最丰富、并附有分割图与透射图的高质量真实水下图像配对数据集LSUI。 2. 方法创新：首次将Transformer架构引入水下图像增强任务，创造性地设计了针对UIE特定问题的通道级（CMSFFT）和空间级（SGfmt）注意力模块。 3. 全面且严谨的验证：通过与其他类型UIE方法的对比、与通用图像复原网络的对比、详尽的消融实验以及专门的颜色校正评估，从多个维度充分验证了所提数据集和网络方法的优越性与有效性。 4. 多颜色空间损失函数：提出了一种融合RGB、Lab和Lch颜色空间特性的损失函数，更全面地约束了增强图像的色彩和对比度属性，符合人类视觉感知原理。
其他有价值内容 论文还对水下图像增强的三大类方法（视觉先验、物理模型、数据驱动）及相关工作进行了清晰的梳理和评述，为读者提供了该领域的背景知识脉络。同时，论文公开了数据集和演示代码的获取地址，体现了研究的可复现性和开放性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问