用于真实水下图像增强与超分辨率的RUISER方法

分享自：
用于真实水下图像增强与超分辨率的RUISER方法

期刊:ieee transactions on circuits and systems for video technologyDOI:10.1109/tcsvt.2023.3328785
学术研究报告：RUISER — 一种面向真实水下场景的图像增强与超分辨率网络
一、 研究团队与发表信息
本研究由来自上海大学通信与信息工程学院及特种光纤与光接入网重点实验室的科研团队完成。主要作者包括：李银祎、沈礼权（通讯作者）、李梦瑶（IEEE学生会员）、王征勇和庄立豪。该项研究成果以题为《RUISER: Realistic Underwater Image Enhancement and Super Resolution》的学术论文形式，发表于国际权威期刊《IEEE Transactions on Circuits and Systems for Video Technology》（TCSVT）2024年6月出版的第34卷第6期。该研究得到了国家自然科学基金、上海市科技计划等多个项目的资助。
二、 研究背景与目的
本研究隶属于计算机视觉与图像处理领域，具体聚焦于水下图像增强与超分辨率（Underwater Image Enhancement and Super-Resolution, UIESR）这一具有挑战性的任务。清晰且高分辨率的水下图像对于海洋资源勘探、环境监测和科学研究至关重要。然而，由于水介质对光线的吸收和散射作用，以及硬件设备的限制，实际捕获的水下图像普遍存在分辨率低、细节模糊、颜色失真（颜色投射，color casts）等双重退化问题。
现有的UIESR方法在处理真实、浑浊的低分辨率水下图像时，性能受到严重限制，主要源于三个核心问题：1. 训练数据不真实：现有方法通常假设分辨率退化是简单且已知的双三次下采样（bicubic down-sampling），与真实世界中复杂未知的分辨率退化过程存在显著差距。2. 先验知识有限：大多数方法依赖于从简化的水下成像物理模型中提取已知先验，难以应对由未知混合双重退化带来的复杂问题。3. 失真交互被忽视：方法未充分考虑模糊与颜色投射这两种失真在RGB色彩空间中的相互干扰，导致校正结果不理想。
为解决上述挑战，本研究旨在提出首个面向真实世界水下图像增强与超分辨率的网络框架。具体目标包括：开发一种能生成符合真实低分辨率图像分布的配对数据的方法；设计一种能够准确估计未知双重退化先验的机制；构建一个能有效利用这些先验、分别处理模糊和颜色失真的增强与超分辨率模块，最终实现比现有方法更优的视觉质量和量化指标。
三、 研究方法与流程
本研究提出的方法称为RUISER，其整体工作流程包含三个核心模块，形成一个从数据生成、退化估计到图像重建的完整管道。
1. 真实低分辨率图像生成模块 动机：为了解决合成数据集（如UFO-120）与真实世界分辨率退化之间的差距，需要一个能生成符合真实退化分布的配对训练数据的模块。考虑到分辨率退化主要体现在亮度信息上，而水下退化同时影响亮度和色度，该模块的设计目标是：在保留原始图像内容和水下退化特性的前提下，仅在亮度通道学习并模拟真实低分辨率图像的分辨率退化。 流程：该模块以未配对的高分辨率水下原始图像作为输入。其核心思想是在双三次下采样的基础上，通过一个自适应下采样子网络，在图像的L通道（Lab色彩空间）进行退化补偿。具体而言，模块包含一个生成器（自适应下采样网络）和一个判别器（退化判别器）。生成器学习将高分辨率图像映射到低分辨率域，使得生成的图像在分辨率退化特性上与真实的低分辨率图像难以区分。同时，通过结合感知损失和低频损失，确保生成图像的内容和低频结构（即水下退化特征）保持不变。整个过程可表述为：生成的LR图像 = 双三次下采样(HR图像) + λ * L通道下采样补偿函数(HR图像)。其中λ是学习到的补偿参数。
2. 双重退化估计模块 动机：在未知且复杂的双重退化场景下，从物理模型估计已知先验往往是低效甚至不准确的。因此，需要一种新方法直接从严重退化的低分辨率图像中提取鲁棒的双重退化表示（即先验），以辅助重建。 流程：DEM的核心创新是提出了一种对比驱动学习策略。研究者构建了一个“三重LR集合”，包含三幅图像：a) 由上述RLGM生成的LR图像，b) 对同一HR图像进行简单双三次下采样得到的LR图像，c) 另一幅内容不同的真实水下LR图像。这三幅图像在退化属性上存在特定关系：a与b具有相同的水下退化但分辨率退化不同；a与c具有相似的真实分辨率退化但水下退化（内容）不同。利用这种关系，以生成的LR图像为“锚点”，分别构建用于提取分辨率退化先验和水中退化先验的正负样本对。具体来说： * 对于分辨率退化先验：将真实水下LR图像作为正样本（共享相似的真实分辨率退化），将双三次下采样图像作为负样本（分辨率退化不同）。 * 对于水中退化先验：将双三次下采样图像作为正样本（共享相同的水下退化），将真实水下LR图像作为负样本（水下退化不同）。 通过一个共享结构的网络（包含池化层、卷积层和全连接层）提取特征，并利用对比损失函数进行训练，使得网络能够学习并输出具有区分度的分辨率退化先验表示和水中退化先验表示。这些先验随后被转换为可自适应调整的卷积权重参数，用于指导后续的重建模块。
3. 增强与超分辨率模块 动机：为了有效处理由双重退化引起的模糊和颜色投射，并避免二者在RGB空间中的相互干扰，ESRM采用了一种双分支结构，将处理过程分离到Lab色彩空间的不同通道中进行。 流程：首先，输入的低分辨率图像被转换到Lab色彩空间。整个ESRM包含以下子模块： * 双重退化先验引导模块：该模块接收DEM提取的双重退化先验以及输入图像的特征。它采用两个并行的残差密集块序列，分别独立地融合分辨率退化先验和水中退化先验的指导信息，输出一个富含纹理细节的边缘图。此边缘图通过边缘损失进行约束，以补充纹理信息。 * 基础增强模块：对输入图像进行初步清洁处理。 * 去模糊子网络：处理L通道（亮度）。该网络以DPGM提供的、由双重退化先验引导的特征作为额外输入，专注于恢复因双重退化而损失的纹理和细节。网络由多个残差密集块构成，利用先验信息更有效地解决未知退化带来的纹理模糊问题。 * 颜色校正子网络：处理ab通道（色度）。该网络专门利用DEM提供的水中退化先验作为指导。考虑到颜色是全局特征，网络结合了多尺度结构和通道注意力机制，以更好地提取和利用先验信息与颜色特征之间的关联，从而更准确地校正颜色投射。 * 融合模块：最后，将去模糊后的L通道图像与颜色校正后的ab通道图像合并，并转换回RGB色彩空间，得到最终的高分辨率、高质量输出图像。
训练与实验设置：研究使用了包含1360幅未配对LR-HR图像的数据集进行训练。训练分阶段进行：首先训练RLGM；然后固定RLGM，使用其生成的LR图像与对应的增强HR图像（基于人类观察意见生成，作为地面真值）来训练DEM和ESRM。测试阶段，使用一个包含206对图像的新构建测试集“test-206”进行评估，其中LR图像由RLGM生成以模拟真实退化，HR图像同样基于主观质量最佳原则生成。此外，还在多个真实水下基准数据集和合成数据集上进行了广泛测试。
四、 研究结果与数据分析
本研究通过定量指标、定性视觉比较和用户主观研究等多个维度，全面验证了RUISER方法的优越性。
1. 定量评估结果 在参考指标方面，在自建的test-206数据集上，RUISER在峰值信噪比、结构相似性和学习感知图像块相似度等指标上，对于2倍、3倍、4倍超分辨率任务，在绝大多数情况下均排名第一或第二，显著优于其他七种对比方法。 在非参考指标方面，结果更具说服力。在包括test-206、UIEB-C、UIEB、EUVP、RUIE在内的五个真实水下数据集上，RUISER在水下图像质量度量、自然图像质量评估器和感知指数三个指标上均 consistently 取得最佳性能。这表明RUISER生成的图像具有更优的视觉感知质量。即使在合成数据集UFO-120上，RUISER也保持了领先优势。 这些定量结果一致表明，RUISER能够更好地处理真实世界中复杂未知的双重退化，恢复出更清晰的纹理和更自然的颜色。
2. 定性视觉比较 视觉对比图清晰地展示了RUISER的优势。相较于其他方法： * 两阶段方法（如SGUIE+D2C-SR）常出现颜色过增强（如过度偏红）和纹理过度平滑的问题。 * 端到端顺序处理方法（如Deep SESR）存在明显的伪影和颜色校正不足。 * 其他端到端同步处理方法（如Deep Wavenet, URSCT）在同时处理纹理和颜色时存在局限，要么边缘过于平滑，要么颜色恢复不充分。 而RUISER能够在各种挑战性场景（如浑浊水体、复杂光照）下，有效地增强纹理细节、校正颜色失真，产生视觉上更令人愉悦、更接近真实场景的重建结果。例如，在图示案例中，RUISER能恢复出更清晰的珊瑚纹理和更真实的鱼类色彩，同时避免了其他方法常见的色偏和模糊。
3. 用户主观研究 通过双盲主观评分实验（1-5分），RUISER获得了最高的平均得分。这直接证明了其在人类视觉感知层面的优越性，符合其设计目标——生成具有均匀亮度、自然色彩、真实纹理和良好可见性的图像。
4. 消融研究与分析 消融实验系统地验证了各个模块的必要性： * RLGM的有效性：使用双三次下采样图像代替RLGM生成的图像（实验Ruiesr-a）会导致性能显著下降，证实了模拟真实分辨率退化对提升模型在真实数据上泛化能力的关键作用。 * DEM的有效性：不使用先验信息（实验Ruiesr-b）时，纹理和颜色的恢复效果均不理想，验证了从数据中学习未知退化先验的重要性。 * DPGM的有效性：在ESRM中移除双重退化先验引导（实验Ruiesr-c）会导致纹理恢复能力变差。 * 双分支结构的有效性：不分离处理模糊和颜色失真（实验Ruiesr-d）会使两种失真相互干扰，难以取得理想效果。 此外，实验还比较了不同色彩空间（RGB, YUV, Lab）的效果，证实了Lab色彩空间由于其在亮度和色度分离上的优越性，最适合本任务。
5. 模型复杂度分析 与对比方法相比，RUISER在参数量、计算量和运行时间上达到了较好的平衡。虽然两阶段方法复杂度最高，而一些简单方法复杂度较低但性能差，RUISER以相对适中的复杂度实现了最佳的性能提升。
五、 研究结论与价值
本研究成功提出并验证了首个专注于真实世界水下图像增强与超分辨率的网络框架RUISER。其主要结论是：通过构建一个包含真实低分辨率图像生成、对比学习驱动的双重退化先验估计和基于Lab空间双分支的增强与超分辨率的完整流程，能够有效解决现有方法因训练数据不真实、先验知识有限和失真交互被忽视而导致的性能瓶颈。
该研究的价值体现在： * 科学价值：1) 首次将“真实世界超分辨率”的概念系统性地引入水下图像处理领域，强调了模拟真实分辨率退化的重要性。2) 提出了一种新颖的对比驱动策略，用于从无配对数据中估计未知的、混合的双重退化先验，为先验学习提供了新思路。3) 深入分析了不同退化在Lab色彩空间各通道的影响差异，并据此设计了有效的双分支处理架构，为处理交互式图像退化问题提供了理论依据和实践范例。 * 应用价值：RUISER能够显著提升真实水下图像的清晰度和色彩真实性，其输出结果更适用于后续的海洋生物学分析、水下机器人导航、地形测绘、考古探测等实际应用，具有直接的工程应用前景。
六、 研究亮点
问题定义新颖：首次明确针对“真实世界”水下图像的双重退化（未知分辨率退化+未知水下退化）进行联合增强与超分辨率研究，抓住了实际应用中的核心痛点。
方法创新性强：三位一体的框架设计具有高度创新性。RLGM解决了数据瓶颈；DEM利用对比学习巧妙地从未配对数据中提取退化先验；ESRM基于对退化机制的深入理解，采用Lab空间双分支结构进行针对性处理。
实验验证全面：不仅在合成数据集上测试，更在多个真实水下基准数据集和新构建的、更贴近真实退化的测试集上进行了广泛的定量、定性和主观评估，结论坚实可靠。
开源贡献：作者公开了训练和测试数据集，有助于推动该领域后续研究，具有积极的社区贡献意义。
七、 其他有价值内容
研究中对现有UIESR方法进行了清晰的分类梳理（两阶段、端到端顺序处理、端到端同步处理），并指出了每类方法的局限性，这为读者理解该领域的发展脉络和本工作的定位提供了清晰的背景。此外，文中对水下成像物理模型及其局限性的讨论，也有助于读者理解数据驱动方法在该复杂任务中的必要性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问