基于空间-光谱双域自适应学习的水下图像增强

分享自：
基于空间-光谱双域自适应学习的水下图像增强

期刊:association for the advancement of artificial intelligence
学术研究报告：基于空谱双域自适应学习的水下图像增强方法 SS-UIE
第一， 研究者与发表信息
本研究的主要作者是北京理工大学的林涛彭（音译）和李恒边*（音译），通信作者为李恒边。研究论文《adaptive dual-domain learning for underwater image enhancement》已发表于人工智能领域的顶级学术会议AAAI（Association for the Advancement of Artificial Intelligence）在2025年举办的第三十九届会议（The Thirty-Ninth AAAI Conference on Artificial Intelligence）的论文集中。这表明该研究工作是经过同行评审并被国际顶级学术会议收录的创新性研究成果。
第二， 学术背景与研究动机
本研究的科学领域主要隶属于计算机视觉，具体聚焦于水下图像增强（Underwater Image Enhancement， UIE）。水下成像技术在海洋探索、资源勘察、环境监测等领域具有至关重要的作用。然而，由于水体介质对光的强烈吸收和散射效应，获取的水下图像普遍存在退化问题，如色彩偏差、对比度低、细节模糊等。这些问题严重制约了基于水下图像的自动化分析和理解。因此，提升水下图像质量的UIE技术研究具有重要的科学意义和应用价值。
现有的UIE方法主要分为基于物理模型的方法和基于学习的方法。传统物理模型方法依赖于手工设计的先验和参数，泛化能力差，难以适应复杂多变的水下环境。近年来，基于深度学习的方法展现出巨大潜力。早期的基于卷积神经网络（CNN）的方法虽然提升了泛化能力，但其有限的感受野难以捕捉图像的非局部相似性和长程依赖关系，导致增强效果不理想。近期，基于Transformer的方法因其强大的自注意力机制（Self-Attention）能有效建模长程依赖而获得优异性能，但其计算复杂度与图像尺寸呈二次方增长，计算负担沉重。更重要的是，现有的基于学习的UIE方法普遍存在两个关键挑战：1）它们通常平等地对待图像中的所有空间区域和光谱波段，忽略了水下图像在不同空间区域和不同颜色通道（光谱）上存在不一致的退化程度这一物理事实；2）它们对所有区域一视同仁，忽视了包含高频细节（如纹理、边缘）的区域更难重建的问题。
针对上述挑战，本研究旨在探索一种能够同时适应不同空间区域和不同光谱波段退化程度、且具备线性计算复杂度的自适应水下图像增强方法。其核心目标是：设计一个新颖的网络架构，使其能够捕捉全局的、与内容相关的退化模式，并优先关注退化严重或细节丰富的区域，从而以更低的计算和内存成本，实现优于现有方法的水下图像增强效果。
第三， 研究方法与技术流程的详细阐述
本研究提出了一种名为SS-UIE（Spatial-Spectral Dual-Domain Adaptive Learning for UIE）的网络模型。整个研究工作主要包含三个核心环节：网络架构设计、损失函数创新以及系统性的实验验证。具体工作流程如下：
SS-UIE 网络整体架构设计： SS-UIE网络遵循一个编码器-解码器风格的结构，主要由三个模块构成：浅层特征提取模块、深层特征融合模块和图像重建模块。
浅层特征提取：给定一张低质量水下图像Ilq，通过一个由若干卷积和下采样层组成的模块提取其浅层特征F0。这些特征主要包含图像的低频信息（如色彩、大体轮廓）。
深层特征融合：这是网络的核心部分。研究者设计了多个密集连接的空间-光谱块（Densely Connected SS-Blocks， Dcssb）来提取不同层次的高维深度特征。每个Dcssb包含4个基本的空间-光谱块（SS-Block）。浅层特征F0作为输入，经过第一个Dcssb后得到特征F1，随后F0与F1一起作为输入送入第二个Dcssb得到F2，以此类推，形成密集连接。这种设计有利于在加深网络的同时保持长程记忆和增强局部细节。最终，一个门控融合（Gated Fusion）块会自适应地加权融合所有Dcssb的输出（F1, F2, …, Fn），生成融合了多层次信息的深度特征Fdf。
图像重建：重建模块通过多个上采样卷积块，将浅层特征F0与深度融合特征Fdf相加后重建出高质量的水下图像Ipred。其中，Fdf专注于恢复图像中丢失的中频和高频细节。
核心创新模块：空间-光谱块（SS-Block）的设计： SS-Block是整个网络实现自适应增强的关键，其创新性在于并行集成了两个具有线性计算复杂度的全局感受野模块：
空间维度的多尺度循环选择性扫描模块（MCSS）：该模块基于最新的状态空间模型Mamba进行设计。Mamba的S6块（Selective Scan Structured State Space for Sequences）能提供全局感受野和基于内容的自适应推理能力，且计算复杂度与序列长度呈线性关系。为了将Mamba适配于二维图像数据，研究者提出了“多尺度循环选择性扫描策略”。其工作流程是：将输入的二维图像特征块，沿着多个不同的、预设的循环路径（如图3所示）展开成一维序列；每条路径的序列由一个独立的S6块并行处理；最后将所有处理后的序列重新合并成二维特征图。这种策略使MCSS能够同时感知图像的局部纹理和全局结构信息，从而建模图像中不同空间区域的退化程度，并强化网络对退化严重区域的关注。
光谱维度的自注意力模块（SWSA）：该模块旨在捕捉不同光谱（颜色通道）之间的长程依赖关系。其工作流程是：首先对输入特征进行层归一化，然后通过二维快速傅里叶变换（2D-FFT）将其转换到频域；接着，在频域中与一个可学习的全局滤波器K进行逐元素相乘（哈达玛积）。这个滤波器K的维度与特征谱相同，可以视为一组针对不同隐藏维度的可学习频域滤波器，能够实现全局的光谱信息交换；最后，通过逆傅里叶变换（2D-IFFT）将调制后的频域特征转回空域。SWSA通过在频域进行全局操作，有效地建模了不同光谱波段的退化差异。
并行结构与自适应融合：在SS-Block中，MCSS和SWSA以并联方式处理输入特征的两个独立分支。这两个分支的输出经过多层感知机（MLP）等处理后，再进行拼接和1x1卷积融合，并与输入建立残差连接。这种并行设计，而非串联，使得空间和光谱特征能够在处理过程中进行互补交互，在保持线性复杂度的前提下，实现了同时捕捉空间和光谱全局感受野，从而完成基于退化程度的空谱双域自适应增强。
创新损失函数：频域损失（FWL）： 为了解决网络倾向于优先拟合低频信息而导致高频细节丢失的问题，研究者提出了一种频域损失函数。其核心思想是对预测图像和真实图像在频域上的差异进行动态加权监督。
计算流程：首先，对预测图像和真实图像的每个通道分别进行二维离散傅里叶变换，得到各自的频率谱F_pred和F_gt。然后，计算每个频率坐标(u, v)上的功率距离D(u, v)。接着，根据该距离的绝对值动态生成一个权重因子θ(u, v)，使得距离越大（即该频率分量更难合成）的权重越高。最后，将所有通道的加权距离求和，得到总的频域损失LFWL。
作用：FWL通过这种动态加权的监督方式，迫使模型在训练过程中更多地关注难以重建的高频成分，从而自适应地改善高频细节区域的恢复质量，且不会在模型测试时引入任何额外的计算和内存开销。
实验设计与验证流程： 为了全面验证SS-UIE的有效性，研究团队进行了详尽的实验，主要包括：
数据集：使用了三个公开的水下图像数据集。1) UIEB：包含890张有参考（有对应的清晰图像）的配对图像，其中800张用于训练，90张用于测试。2) LSUI：包含4279张图像，按既定划分3879张训练，400张测试。3) U45：一个包含45张图像的无参考测试集，用于评估模型的泛化能力。
评估指标：在有参考数据集中，采用峰值信噪比（PSNR）、结构相似性指数（SSIM）、学习感知图像块相似度（LPIPS）和弗雷歇初始距离（FID）作为量化指标。在无参考数据集U45上，则使用水下图像质量评估指标（UIQM）和水下彩色图像质量评估指标（UCIQE）。
对比方法：与8种最先进的UIE方法进行了全面对比，涵盖传统融合方法（Fusion）、基于GAN的方法（UGAN）、基于CNN的方法（Water-Net, U-Color）、基于Transformer的方法（U-Shape）以及基于扩散模型的方法（WF-Diff）等。
消融实验：为了验证每个提出组件的有效性，研究者设计了一系列消融实验。包括：将SS-Block替换为Swin Transformer Block作为基线（BL）；单独测试MCSS和SWSA模块；比较MCSS与原始的2D选择性扫描（SS2D）策略；比较MCSS与SWSA的串行和并行组合；以及验证FWL损失函数的作用。所有实验均在相同的数据集和设置下进行，以确保公平性。
第四， 研究主要结果与分析
实验结果表明，SS-UIE方法在多个方面均取得了领先的性能，并有效验证了其设计理念。
全参考数据集性能评估结果： 在UIEB和LSUI数据集上的定量比较（见表1）显示，SS-UIE在PSNR和SSIM这两个关键质量指标上均取得了最佳或次佳的成绩，同时在LPIPS和FID等感知质量指标上也表现优异。例如，在LSUI数据集上，SS-UIE的PSNR达到了28.87 dB，SSIM达到了0.952，显著优于其他对比方法。图1的性能-参数量-计算量对比图更直观地表明，SS-UIE在获得最高PSNR（性能）的同时，所需的浮点运算次数（FLOPs，计算成本）和参数量（Params，内存成本）均低于许多主流方法，实现了性能与效率的双重优势。视觉对比结果（见图4）进一步证实，SS-UIE增强后的图像在颜色保真度、对比度恢复和细节（如纹理、边缘）清晰度方面最接近真实参考图像，颜色失真和伪影最少。
非参考数据集泛化能力评估结果： 在U45数据集上的测试（见表1）表明，SS-UIE在UIQM和UCIQE这两个无参考质量指标上均取得了最高分，证明了其在未见过的真实水下场景中具有出色的泛化能力。视觉对比（见图5）显示，其他方法在处理高频局部细节时要么过于平滑、丢失纹理，要么产生不期望的斑点纹理，而SS-UIE则能更准确地恢复出清晰、自然的细节。这直接验证了FWL损失函数在引导模型关注和重建高频细节方面的有效性。
消融实验结果分析：
SS-Block的有效性：消融实验（见表2）清晰表明，移除MCSS或SWSA任一模块，或将其串联组合，都会导致性能（PSNR和SSIM）下降。这证明了两个模块各自不可或缺的作用以及并联设计的优越性。具体而言： BL+MCSS的性能优于BL+SS2D，说明提出的多尺度循环选择性扫描策略比原始策略更有效。
BL+MCSS+SWSA（串行）的性能优于仅使用MCSS，但不如BL+MCSS+SWSA（并行），且并行设计的计算和内存成本更低。这充分说明并行设计能够促进空间和光谱特征的交互，是实现高效、高性能双域自适应增强的关键。
FWL损失函数的有效性：在加入FWL后，模型的PSNR和SSIM指标得到了进一步提升（从28.13⁄0.938提升至28.87⁄0.952）。图6通过可视化预测图像的3D频谱并与真实频谱对比，提供了更直观的证据。可以看到，有FWL监督的模型输出的频谱与真实频谱更为接近，计算出的对数频率距离（LFD）更小。这表明FWL成功地缩小了预测图像与真实图像在频域上的差异，特别是保住了更多的高频信息，从而在空间域表现为更清晰的细节和更少的模糊与伪影。
第五， 研究结论与价值
本研究提出并验证了一种新颖的、基于空谱双域自适应学习的水下图像增强方法——SS-UIE。其核心结论是：通过并行结合具有线性复杂度的空间域MCSS模块和光谱域SWSA模块构建SS-Block，网络能够同时、高效地建模水下图像在不同空间区域和不同光谱波段上的不一致退化程度，从而实现基于退化水平的自适应增强。同时，引入的频域损失函数FWL能够动态引导模型关注和恢复难以合成的高频细节，在不增加推理成本的前提下显著提升图像的细节质量。
该研究的科学价值在于：首次将状态空间模型（Mamba）与频域自注意力机制创新性地结合，并应用于UIE任务，为解决水下图像的不一致退化问题提供了一个高效且强大的双域建模框架。其并行设计思路为其他底层视觉任务（如去雾、去噪）的网络结构设计提供了新思路。
其应用价值显著：SS-UIE模型在多个基准测试集上均达到了最先进的性能，且在取得优异增强效果的同时，保持了较低的计算复杂度和内存占用。这意味着该方法更易于在实际的、资源受限的水下机器人、自主水下航行器（AUV）或边缘计算设备上部署，对于推动水下视觉技术的实际应用具有积极意义。
第六， 研究亮点
本研究的亮点主要体现在以下几个方面： 1. 问题导向的创新：研究紧扣现有UIE方法的两个核心痛点（忽略空谱不一致退化、平等对待所有区域），提出了针对性的解决方案。 2. 双域自适应学习框架：创造性地构建了空谱双域自适应学习框架，通过MCSS和SWSA模块分别在线性复杂度下捕获空间和光谱的全局依赖与退化模式。 3. 高效的并行架构：采用MCSS与SWSA的并联而非串联组合，是实现高效双域交互和自适应增强的关键设计，在保证性能的同时降低了计算开销。 4. 动态频域监督：提出了频域损失函数（FWL），通过动态加权方式强制模型优先恢复高频细节，这是一种新颖且有效的监督信号补充，对提升图像细节质量至关重要。 5. 性能与效率的平衡：实验证明，SS-UIE不仅在PSNR、SSIM等客观指标和主观视觉质量上超越了现有SOTA方法，同时在模型参数量（Params）和计算量（FLOPs）上也具有优势，实现了“又好又快”的目标（见图1）。
第七， 其他有价值的内容
此外，论文中对相关工作的综述部分（Related Work）系统梳理了基于物理模型、基于CNN和基于Transformer的UIE方法的发展脉络及其各自的局限性，为读者理解该领域的研究背景和本工作的创新定位提供了清晰的上下文。论文中展示的详细网络结构图（图2）和MCSS模块示意图（图3）使得方法的创新点和技术细节一目了然。全面而严谨的消融实验设计，为每一个提出的模块（MCSS, SWSA, 并联结构, FWL）的有效性提供了有力的数据支撑，增强了研究结论的可信度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问