基于本征监督的水下图像增强协同多尺度细节细化

分享自：
基于本征监督的水下图像增强协同多尺度细节细化

期刊:Proceedings of the AAAI Conference on Artificial Intelligence
基于固有监督的协同多尺度细节优化水下图像增强方法学术报告
本文旨在为中文研究界介绍一项发表于人工智能领域顶级会议AAAI（The Thirty-Eighth AAAI Conference on Artificial Intelligence，简称AAAI-24）的原创性研究成果。这项研究由大连海事大学信息科学技术学院的张德欢、周敬淳、张维石以及南开大学计算机科学与技术学院VCIP实验室的郭春乐、李崇义共同完成。论文题为“Synergistic Multiscale Detail Refinement via Intrinsic Supervision for Underwater Image Enhancement”，即《基于固有监督的协同多尺度细节优化的水下图像增强方法》。
一、 研究背景与目标
该研究属于计算机视觉（Computer Vision）领域，具体聚焦于水下图像增强（Underwater Image Enhancement， UIE）这一重要且具有挑战性的子方向。水下环境复杂多变，溶解和悬浮物质对光线的吸收与散射导致水下图像普遍存在对比度低、颜色失真、细节模糊和视觉范围受限等退化问题。高质量的水下图像对于海洋勘探、生物研究、环境监测和水下机器人导航等应用至关重要。因此，开发有效的水下图像增强技术具有显著的科学和应用价值。
尽管现有的水下图像增强方法层出不穷，包括基于物理先验模型的方法和端到端的深度学习方法，但本研究团队指出，当前方法普遍忽视了一个关键特性：水下场景退化的尺度相关性。如图1所示，相同的退化模式（如颗粒物、湍流导致的模糊）在不同分辨率的图像中是一致的。这意味着，低分辨率图像（经过下采样的图像）虽然丢失了部分高频细节，但其保留的低频信息能够反映场景退化的本质特征，可以为原始高分辨率图像的恢复提供有价值的指导和约束。现有方法未能充分利用这种跨尺度的固有关联信息，导致对场景细节的恢复不够完整。
基于此背景，本研究旨在解决上述局限性。其核心目标是：设计一种能够协同利用多尺度退化信息、并通过固有监督机制精细恢复水下图像细节的新型增强网络。研究者们提出了一个名为“基于固有监督的协同多尺度细节优化”（Synergistic Multiscale Detail Refinement via Intrinsic Supervision, SMDR-IS）的新框架，力图通过挖掘并利用水下图像本身固有的、跨尺度的退化关联特征，实现更精准、更鲁棒的水下图像恢复。
二、 研究方法与详细流程
SMDR-IS方法的核心是一个创新的多退化（Multi-degradation）编码器-解码器架构，其工作流程主要包含以下几个关键部分：
1. 数据输入与多尺度特征构建： 研究采用UIEB等公开水下图像数据集进行训练与测试。在模型处理阶段，输入一张原始水下图像（原始退化阶段）。为了捕获多尺度场景信息，研究者不仅使用原始分辨率图像，还通过下采样（Downsampling）操作生成了三种较低分辨率的图像副本，分别对应2倍、4倍和8倍下采样。这四幅不同分辨率的图像共同构成了一个多退化输入序列，旨在为网络提供不同尺度下的退化场景信息。这一设计灵感来源于观察：经典的U-Net类增强网络通常包含三个下采样阶段，因此本方法对应地构建了三个低分辨率输入阶段，以更紧密地配合网络结构学习尺度相关特征。
2. 多退化编码器与关键模块： SMDR-IS的编码器部分并行处理这四路不同分辨率的输入。每一路编码分支都包含一个双焦点固有-上下文注意力模块。该模块是本研究的一个核心创新点。它采用双路径设计： * 第一条路径（固有注意力路径）：首先通过一个综合特征注意力模块从空间和通道两个维度提取特征。随后，这些特征被送入分辨率引导固有注意力模块。REGIA模块的创新之处在于，它利用低分辨率潜在空间的特征来监督和引导高分辨率特征的学习。具体而言，它先将高分辨率特征下采样到低分辨率空间，在计算成本更低的情况下，利用更大的感受野分析全局上下文信息并计算注意力权重，再将此权重上采样回原始分辨率，用以精炼原始特征。这个过程模拟了人类视觉系统“先看全局，再聚焦局部”的认知方式，有效拓宽了网络的感受野，同时保持了计算效率。 * 第二条路径（上下文注意力路径）：设计了一个分层上下文感知特征提取模块。该模块直接在原始特征域工作，通过分层级的上下文注意力机制，提取图像的表征特征，重点捕获像素间的空间上下文关系，这对于理解水下物体的结构和纹理至关重要。 BCIA模块将这两条路径的输出特征进行融合，从而实现了局部细节与全局上下文的协同优化，为图像恢复提供了更全面的信息基础。
3. 自适应选择性固有监督特征模块： 在将低分辨率编码器和解码器分支的特征信息融合到原始分辨率分支时，一个关键挑战是如何避免引入无关或噪声信息的干扰。为此，研究者提出了另一个核心模块——自适应选择性固有监督特征模块。ASISF的作用像一个智能过滤器。其工作流程是：当需要从低分辨率分支（例如2倍下采样分支）向高分辨率分支传递特征时，ASISF以原始分辨率分支当前的特征作为“固有监督”参考。它通过学习一个自适应选择机制，评估低分辨率特征中哪些部分对当前高分辨率特征的重建是真正有益和相关的，从而有选择性地、精确地控制特征传输。这种方法确保了在多尺度信息融合过程中，只有最能补充和纠正原始分辨率特征退化的信息被传递，有效避免了多尺度细节简单叠加可能导致的模糊和信息混淆。
4. 多退化解码器： SMDR-IS的解码器设计与编码器对称，但功能是逆向的。它将来自编码器的多尺度特征以及通过ASISF模块筛选后的跨层级特征进行逐步上采样和融合。低退化（低分辨率）分支的信息在本研究中被视为“补充分支”，它们为解码器提供了关于场景退化本质的深层次线索。通过整合这些来自不同尺度的信息，解码器能够获得对复杂水下退化模式的更全面理解，从而在图像重建过程中不仅能恢复出清晰的细节，还能更准确地还原多场景的原始信息。在特征恢复模块中，ASISF模块再次被用于控制向上传递的特征，确保信息流的纯净性。
5. 训练策略与损失函数： 为了使网络能够有效地学习并利用多尺度信息，研究者设计了一个多退化损失函数。该损失函数不仅监督网络最终输出的原始分辨率增强结果，还同时监督网络中间过程生成的低分辨率增强结果。具体而言，对于每个尺度阶段j（j=1到4，对应四个分辨率级别），都计算一个组合损失Lj，它包含三个部分：L1损失（用于约束像素级精度）、感知损失（基于预训练的VGG网络特征，用于约束高级语义和结构相似性）和均方误差损失。总的训练损失L是这四个阶段损失之和。这种多分辨率联合监督的策略，强制网络在每一个尺度上都学习生成与对应尺度真值一致的图像，从而确保了网络从粗到细、在各个尺度上都能够有效提取和优化特征。
三、 主要研究结果与数据分析
为了验证SMDR-IS方法的有效性，研究团队在多个公开数据集上进行了广泛的定性和定量实验，并与一系列先进方法进行了对比。
1. 定量对比结果： 如表1所示，研究者在UIEB（含90张测试图）、U45和LSUI三个测试集上，对比了包括传统方法（ULAP, IBLA, GDCP）和深度学习方法（WaterNet, FUNIE-GAN, UWCNN, Ucolor, UDA, U-Shape）在内的共10种前沿算法。评估指标涵盖了像素保真度（PSNR, MSE）、结构相似性（SSIM）、特征相似性（FSIM, FSIMc）、视觉显著性（VSI）以及无参考水下图像质量指标（UIQM, UCIQE, CCF, CEIQ）等共10个指标。 * 整体性能：SMDR-IS在绝大多数指标上取得了领先或极具竞争力的成绩。为了进行综合评估，研究者计算了一个“总分”，即所有正向指标（↑）之和减去负向指标（↓）之和。在UIEB验证集上，SMDR-IS的总分达到60.466，显著高于次优的UDA（58.374）和其他方法。在U45和LSUI数据集上，SMDR-IS的综合得分同样名列前茅，证明了其强大的泛化能力。 * 关键指标表现：在反映像素级恢复精度的PSNR和SSIM指标上，SMDR-IS在UIEB上分别达到23.710和0.922，均为所有方法中的最高值，表明其恢复的图像与清晰参考图在像素值和结构上最为接近。在无参考指标UIQM和UCIQE上，SMDR-IS也取得了非常高的分数，说明其增强结果在人类视觉感知和水下图像特有质量维度上表现优异。
2. 定性（视觉）对比结果： 如图4所示，通过可视化对比可以直观地看到SMDR-IS的优势。与其他方法相比，SMDR-IS增强的图像在颜色校正（纠正偏蓝、偏绿）、对比度提升和细节恢复（如纹理、边缘）方面表现更为均衡和自然。例如，一些基于先验的方法（如ULAP）可能产生过度饱和的颜色，而某些深度学习模型可能残留色偏或导致局部过暗。SMDR-IS则能更忠实地恢复出接近真实场景的颜色和丰富的细节，视觉效果更佳。
3. 效率评估： 除了性能，实际应用也关注效率。表2展示了各方法的处理时间（单张图像耗时）和综合性能。SMDR-IS在保持最高图像质量（总分60.466）的同时，处理速度为0.061秒/帧（约16.4 FPS），满足了实时处理的需求。研究者定义了“综合效率得分” = 质量分 - 时间（秒）。SMDR-IS在此项得分上（60.405）依然最高，证明了其在性能与效率之间的出色平衡。
4. 消融实验分析： 研究者进行了一系列严谨的消融实验，以验证SMDR-IS中各个组件的必要性。 * 多阶段有效性：如表4和图5所示，随着使用的退化阶段数量从1个增加到4个，PSNR和SSIM等指标持续提升，在4个阶段时达到最优。这直接证明了引入多尺度低分辨率信息对提升增强效果的关键作用。 * BCIA模块有效性：如表5所示，分别移除BCIA中的REGIA模块或HCAFE模块都会导致性能显著下降，其中移除REGIA模块的负面影响最大（PSNR从23.710降至22.673）。这验证了利用低分辨率引导拓宽感受野（REGIA）和捕获空间上下文关系（HCAFE）的双路径设计均不可或缺，且REGIA的作用尤为关键。 * ASISF模块有效性：如表3所示，在编码器到解码器的特征传播路径中引入ASISF模块后，网络性能得到明显提升（PSNR从23.122提升至23.710）。这说明ASISF通过固有监督进行特征选择，确实有效过滤了无关信息，优化了跨尺度特征融合。 * 损失函数有效性：如表6所示，同时使用L1损失、感知损失和MSE损失的多退化损失函数，比任何单一或双损失组合都能带来更好的性能，证实了多分辨率联合监督策略的有效性。
四、 研究结论与价值
本研究提出并验证了SMDR-IS这一新颖的水下图像增强框架。其核心结论是：通过协同利用多尺度退化信息，并引入固有监督机制来精准控制跨尺度特征传播，可以显著提升水下图像增强的精度和鲁棒性。 该方法能够更完整地恢复场景细节，生成视觉质量更高、更自然的增强图像。
该研究的科学价值在于： 1. 理论创新：明确提出并验证了“水下场景退化具有尺度相关性”这一洞察，并将此作为网络设计的核心指导思想，为水下图像增强研究提供了新的视角和理论框架。 2. 方法创新：设计了双焦点固有-上下文注意力模块和自适应选择性固有监督特征模块这两个关键创新组件，分别解决了大感受野与计算效率的平衡问题，以及多尺度信息融合中的干扰问题。 3. 架构创新：构建了一个端到端的、显式利用多分辨率输入并进行多分辨率监督的编码器-解码器网络，系统性地整合了从粗到细的恢复过程。
该研究的应用价值显著：SMDR-IS方法生成的增强图像质量高、处理速度快，能够直接应用于水下机器人视觉导航、海洋生物自动识别、海底地形测绘、水下考古与工程检测等多个实际领域，提升相关系统的环境感知能力和作业精度。
五、 研究亮点
核心洞察新颖：首次系统性地将“尺度相关退化模式”作为水下图像增强的固有线索进行挖掘和利用，突破了传统方法仅聚焦于单一分辨率或简单多尺度特征的局限。
关键技术独创：提出的BCIA模块和ASISF模块具有原创性。BCIA巧妙地将低分辨率引导的全局注意力与原始分辨率的上下文注意力相结合；ASISF则创新性地使用“固有监督”来实现跨尺度特征的智能选择和传输。
整体框架系统：从多分辨率输入、双路径注意力、选择性特征融合到多分辨率损失监督，形成了一个完整、自洽且高效的解决方案，显著提升了水下图像增强的综合性能。
实验验证充分：在多个数据集、多种指标上与大量先进方法进行了全面对比，并辅以详尽的消融实验，有力证明了各组件贡献和整体方法的优越性及鲁棒性。
六、 其他有价值内容
该研究还展望了未来的工作方向，计划将SMDR-IS框架拓展到更广泛的计算机视觉应用中，例如水下机器人（Underwater Robotics）和自主水下航行器（Autonomous Underwater Vehicles）的视觉系统。这表明该方法不仅是一个独立的图像增强工具，更是一个具有潜力的底层视觉增强模块，可为更高层次的海洋视觉智能应用提供技术支持。此外，研究者公开了代码，促进了该领域研究的可复现性和进一步发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问