分享自:

基于条件去噪扩散概率模型和物理模型融合的水下图像增强方法研究

期刊:IEEE Journal of Oceanic EngineeringDOI:10.1109/JOE.2025.3635984

本文介绍的这项研究来自IEEE期刊《IEEE Journal of Oceanic Engineering》,标题为“UIE-DDPM: Underwater Image Enhancement Based on the Integration of Physical Model and Conditional Denoising Diffusion Probabilistic Model”(UIE-DDPM:基于物理模型和条件去噪扩散概率模型融合的水下图像增强方法),由Baizhong Chen、Chonglei Wang、Chunyu Guo和Yumin Su共同完成,所有作者均来自哈尔滨工程大学船舶工程学院及其相关实验室。该研究于2025年11月6日被期刊正式接收(接收前历经2023年12月17日提交及多次修订),并计划发表于该期刊的未来刊期中。

学术背景

本研究的科学领域隶属于计算机视觉和图像处理,具体聚焦于水下图像增强这一关键且富有挑战性的任务。清晰的水下视觉对于海洋探索、水下监测、生物研究及基础设施检查至关重要。然而,水下图像普遍存在严重的退化问题,主要包括由于光的吸收和散射、悬浮颗粒及溶解有机物造成的颜色失真、对比度下降、细节模糊及雾化效应。这些退化严重制约了水下机器人视觉、目标识别等高级感知任务的性能。

现有的水下图像增强方法主要分为三大类:基于非物理模型的方法、基于物理模型的方法和基于深度学习的方法。基于非物理模型的方法(如直方图均衡化)虽简单快捷,但常引入不自然的颜色偏移和噪声;基于物理模型的方法(如Jaffe-McGlamery成像模型、暗通道先验)试图通过估计水下光学参数来恢复图像,但其性能严重依赖于参数估计的准确性,在非均匀光照等复杂场景下效果有限。近年来,以卷积神经网络和生成对抗网络为代表的深度学习技术在水下图像增强中取得了显著进展,但GANs存在训练不稳定、模式崩溃及对生成特征控制有限等问题,可能导致细节丢失和伪影。同时,尽管基于Transformer的模型在全局建模方面表现出色,但其高计算成本限制了实时应用。最近兴起的去噪扩散概率模型以其出色的图像生成质量和稳定的训练过程而备受关注,但现有基于条件DDPM的水下图像增强方法仍未充分结合水下成像先验知识,也缺乏对不同水下成像条件的足够适应性。

针对上述局限,本研究旨在开发一种新型的水下图像增强方法,其核心目标是将水下物理成像模型与条件去噪扩散概率模型进行深度融合,以实现更科学、更鲁棒、更高质量的图像增强。具体而言,研究团队希望利用扩散模型强大的生成能力,并通过引入由物理模型推导出的光学补偿信息作为条件控制器,来精准引导去噪和增强过程,从而有效应对水下场景中的复杂退化现象,如后向散射、波长相关衰减、浑浊度和色偏等。

研究详细流程

UIE-DDPM模型的整体架构如图3所示,输入是干净的水下图像(参考图像),条件信息是退化的水下图像。整个工作流程可以概括为四个主要组成部分:前向扩散过程、逆向扩散(去噪)过程、变分自编码器-光学补偿预测网络以及水下图像语义增强网络。模型的核心思想是将经过VCP和UISE网络处理后的条件信息(包含光学补偿和增强语义)融入DDPM的逆向采样过程中,引导模型从噪声中生成高质量、物理上合理的增强图像。

1. 水下图像语义增强网络: 这是对条件图像(退化图像)进行预处理的第一步。UISE的设计目的是增强退化图像的语义和上下文信息,从而在预测衰减水平之前,提升高低阶语义信息的表示,减少光学投影损失,并加强退化图像与输入图像之间的相关性。UISE由两个核心模块构成: - 多感受野注意力机制:该模块集成了多个下采样层的特征以扩大感受野。输入图像首先经过并行卷积层处理,卷积核尺寸分别为3x3、5x5和7x7,以捕获不同尺度的特征。随后,特征进入三个子模块(A、B、C)进行集成。模块A结合平均池化和卷积操作,旨在平滑特征图,抑制高频噪声;模块B采用软注意力机制,根据输入图像的重要性动态调整注意力权重,以抑制无关信息和噪声;模块C则采用多通道注意力机制,同时结合最大池化和平均池化的结果,以兼顾显著性和鲁棒性。三个子模块的输出被求和,形成最终的多感受野注意力特征图。 - 密集特征层次结构:该模块采用多层密集卷积结构。每一层的输出都与之前所有层的输入相连,这种密集连接促进了梯度传播和信息流动,使网络能够有效利用多尺度特征信息,从而更好地理解图像的细粒度细节和整体结构。

2. 变分自编码器-光学补偿预测网络: 这是整个方法的核心创新之一,负责根据Jaffe-McGlamery水下物理模型,预测退化图像的光学补偿信息。其流程如图4所示: - 输入与编码:首先,从条件图像中提取亮度矩阵。随后,将原始条件图像和亮度矩阵同时输入到一个编码器中。 - 分布估计与重参数化:编码器输出这两个输入在潜在空间中的均值(μ, μδ)和标准差(σ, σδ)。然后,基于Jaffe-McGlamery公式(推导出的传输率公式)计算传输分布矩阵的均值和标准差。由于在扩散过程中,参考图像yt逐渐变为纯高斯噪声,利用这一性质,通过设计的重参数化公式,生成与水下光学特性相关的潜在变量。这个过程使得模型能够在训练中通过反向传播有效学习参数。 - 解码输出:解码器根据上述潜在变量,输出光学补偿矩阵。该矩阵不改变扩散过程的初始噪声,而是在逆向扩散过程的每个采样步骤中,作为条件输入馈送到负责预测噪声的U-Net网络中,从而物理地引导和约束图像生成过程。

3. 扩散与去噪过程: - 前向扩散:遵循标准DDPM的前向过程,对参考图像逐步添加高斯噪声,直至其近似于一个标准高斯分布。 - 逆向扩散(条件采样):这是生成增强图像的关键步骤。UIE-DDPM将VCP网络预测得到的光学补偿矩阵作为额外的条件信息,融合到标准的逆向去噪过程中。研究者通过贝叶斯公式推导出新的采样迭代公式,确保每一步的去噪操作都受到来自物理模型的光学补偿信息的引导。这使得模型在从噪声重建图像时,能更准确地恢复因水下物理衰减而损失的颜色、对比度和细节。

4. 实验设计与数据分析流程: 为了验证模型性能,研究进行了全面的实验。 - 数据集:训练使用了公开的UIEB数据集中的890对配对图像(退化图像及其对应的真实参考图像)。测试则在四个独立的基准数据集上进行:Test-UIEB (60张)、Test-UFO (120张)、Test-EUVP (515张) 和 Test-U45 (45张),涵盖了不同的退化类型和水下环境。 - 对比方法:与多种传统方法和深度学习方法进行了对比,包括基于CNN的方法(如WaterNet)、基于GAN的方法(如FUnIE-GAN, UGAN)、基于Transformer的方法以及最近的扩散模型方法(如SU-DDPM, DiffWater)等。 - 评估指标:使用五种广泛认可的指标进行定量评估,包括衡量像素级保真度的PSNR和SSIM,衡量感知质量的VSI,以及专门针对水下图像设计的无参考质量指标UIQM和UCIQE。 - 消融实验:通过移除VCP模块(w/o VCP)或UISE模块(w/o UISE)来验证各核心组件的贡献。 - 应用测试:通过SIFT角点检测和Canny边缘检测来评估增强图像是否丰富了可用于高级视觉任务(如目标检测)的细节信息。此外,还在真实浑浊海域采集的图像上进行了测试,以验证模型的实用价值。

主要结果

1. 定量评估结果: 在多个测试集上,UIE-DDPM在大部分评估指标上都取得了最优或次优的成绩。 - 在Test-EUVP数据集上,UIE-DDPM获得了最高的PSNR值(22.64)和SSIM值(0.896),相比第二名UDCP的SSIM(0.753)有显著提升,表明其在结构保真度和纹理恢复方面的卓越能力。 - 在Test-UIEB和Test-EUVP数据集的无参考指标上,UIE-DDPM的UIQM和UCIQE得分也名列前茅(例如,Test-EUVP上UIQM达到2.29),证明了其在对比度、色彩饱和度和清晰度等感知质量方面的优越性。 - 在Test-UFO和Test-U45数据集上,该模型同样在PSNR、SSIM和VSI等指标上表现出色。 - 在消融实验中,“完整模型”(Full Model)在所有指标上均优于“无VCP”(w/o VCP)和“无UISE”(w/o UISE)的变体。值得注意的是,移除VCP导致的性能下降通常比移除UISE更为显著,这凸显了结合物理模型进行光学补偿指导的关键作用。

2. 定性(视觉)评估结果: 视觉对比图(如文中图6,8,10,11)清晰地展示了UIE-DDPM的增强效果。 - 颜色校正:对于常见的蓝绿色偏图像,UIE-DDPM能够有效抑制色偏,恢复自然、丰富的色彩,而许多传统方法(如IBLA, UDCP)和部分深度学习方法(如UWCNN)则可能校正不足或引入二次失真。 - 细节与纹理恢复:在复杂纹理和细节丰富的区域,UIE-DDPM能够更好地保留和增强边缘、轮廓等细节信息。经过放大的局部图像显示,相较于其他方法,UIE-DDPM的结果更加清晰、自然。 - 极端场景处理:对于深蓝、深绿或严重浑浊的图像,UIE-DDPM表现出更强的鲁棒性,能够在提升饱和度的同时有效抑制雾化效应。

3. 应用实验结果: - SIFT角点和Canny边缘检测表明,经过UIE-DDPM增强的图像,其角点和边缘的丰富度相比原始退化图像和其他方法的结果有显著提升,证明了该方法能为后续的目标识别、特征匹配等任务提供更优质的输入。 - 在真实浑浊海域图像的测试中,UIE-DDPM能够有效降低浑浊度,增强细节,显著提升UIQM(最大提升达1.336)和UCIQE(最大提升达0.158)得分。然而,研究也诚实地指出,在能见度极低的极端浑浊水域,模型的增强能力仍然有限,这为未来研究指明了方向。

结论与价值

本研究成功提出并验证了UIE-DDPM,这是一种开创性地将水下物理成像模型条件去噪扩散概率模型深度融合的水下图像增强方法。其主要结论如下: 1. 模型有效性:UIE-DDPM在定性和定量评估中均超越了现有的先进方法,在多个公开基准数据集上创造了新的性能标杆。 2. 方法创新性:这是首次将Jaffe-McGlamery物理模型与条件扩散模型进行系统集成用于图像增强。其中,VCP网络为扩散过程提供了可解释的、源于物理定律的光学补偿指导,而UISE网络则通过注意力机制增强了条件图像的语义信息。两者结合,共同引导扩散模型生成更符合物理规律和视觉感知的高质量图像。 3. 应用价值:该方法生成的水下图像具有更高的清晰度、更好的色彩保真度和更丰富的细节,能够显著提升水下视觉感知能力,为水下机器人导航、海洋生物观测、水下工程检测等实际应用提供了有力的技术支持。

科学价值:本研究不仅提出了一个高性能的模型,更重要的是为水下图像增强领域提供了一种新的范式,即将物理先验知识与数据驱动的深度生成模型进行有机结合。这种范式增强了模型的可解释性和泛化能力,为解决其他受物理规律影响的图像恢复问题(如大气去雾、医疗影像等)提供了有益参考。

研究亮点

  1. 范式创新:首次实现了水下物理模型与条件扩散模型的深度耦合,将物理可解释性引入到强大的深度生成模型中。
  2. 核心组件设计
    • VCP网络:创造性地利用VAE架构,结合物理公式在潜在空间建模并预测光学补偿,为扩散过程提供了精准的物理约束。
    • UISE网络:设计了多感受野和密集连接的特征增强模块,有效提升了条件图像的信息质量。
  3. 性能卓越:在多个权威指标和数据集上全面领先,证明了该方法的综合优势。
  4. 系统性验证:除了常规对比实验,还进行了深入的消融研究、细节丰富的应用测试(SIFT, Canny),并探讨了模型在极端条件下的局限性,体现了研究的严谨性和全面性。

其他有价值内容

论文还对相关工作进行了详尽的梳理,涵盖了基于物理模型的方法、扩散模型基础以及基于CNN、GAN、Transformer和扩散模型的深度学习水下图像增强方法,为读者提供了清晰的领域发展脉络。此外,文章公开了所提方法的损失函数设计、采样推理过程的数学推导,并讨论了在极端浑浊条件下可能需要转向多模态传感器融合(如声学与视觉融合)的未来方向,显示了研究的前瞻性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com