分享自:

基于快速条件去噪扩散概率模型的实时水下图像增强

期刊:Optics and Laser TechnologyDOI:10.1016/j.optlastec.2026.114795

实时水下图像增强模型REAL-UDPM:基于条件去噪扩散概率模型的创新与突破

第一作者、通讯作者与发表信息 本项研究的主要作者为Baizhong Chen、Chonglei Wang(通讯作者)、Chunyu Guo和Yumin Su。四位作者均隶属于哈尔滨工程大学,其单位具体包括哈尔滨工程大学船舶工程学院、哈尔滨工程大学青岛创新发展基地以及海洋运载器技术研究所/水下技术国家级重点实验室。这项研究成果以全长度文章《Real-UDPM: Real-time Underwater Image Enhancement Based on Fast Conditional Denoising Diffusion Probabilistic Model》的形式,发表于光学与激光技术领域的权威期刊《Optics and Laser Technology》(卷197,2026年),文章识别号为114795。论文于2025年10月13日投稿,历经修改后于2026年1月19日被接收,并于2026年1月27日在线发表。

学术背景与研究目标 本研究属于计算机视觉和图像处理领域,具体聚焦于水下图像增强这一关键方向。水下环境因光线吸收、散射和波长依赖性衰减等因素,严重导致图像质量下降,出现色彩失真、模糊和细节丢失等问题,极大地制约了海洋勘探、水下机器人、生态监测等应用的效能。因此,开发高效的水下图像增强技术至关重要。

现有的水下图像增强方法主要分为三类:基于物理模型或手工特征的传统方法、基于卷积神经网络(CNN)与生成对抗网络(GAN)的深度学习方法,以及近年来兴起的基于扩散模型的方法。其中,GAN类方法虽能生成视觉上吸引人的结果,但普遍存在训练不稳定、模式崩溃、超参数敏感等问题,且对抗性训练过程往往损害了增强过程的可控性和可解释性。扩散模型,特别是去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)和条件DDPM(Conditional DDPM, CDDPM),在图像生成、超分辨率等任务上展现出了超越GAN的稳定性和生成质量,其基于概率框架的建模方式提供了更好的多样性和可控性。

然而,直接将CDDPM应用于水下图像增强面临两大核心挑战:一是其反向扩散过程的迭代性导致计算成本高昂,难以满足实时应用需求;二是标准的CDDPM缺乏针对水下退化领域的特定优化,直接应用效果有限。尽管已有研究尝试引入分类器自由引导(Classifier-Free Guidance, CFG)等技术来改善条件生成,但这些方法在反向扩散过程中可能引入累积误差,影响最终增强质量。

基于上述背景,本研究旨在解决这些挑战,提出一个名为“REAL-UDPM”的实时水下图像增强模型。其核心目标是:通过重新设计条件扩散过程,将CDDPM有效适配于水下图像增强任务;引入加速采样策略,大幅降低推理时间以实现实时处理;并通过创新的机制缓解误差累积,从而在保持扩散模型高质量生成能力的同时,满足实际工程应用对速度和稳定性的要求。

研究方法与详细工作流程 REAL-UDPM的研究工作是一个系统工程,主要包括模型架构设计、关键技术创新、训练与实现、以及广泛的实验验证四个主要环节。

环节一:模型整体架构设计与创新模块引入 REAL-UDPM并非对标准CDDPM的简单套用,而是对其前向与反向扩散过程进行了针对性的重新设计。整体架构如图2所示(论文中提供),其核心创新体现在三个关键模块的集成:

  1. 条件前向扩散过程(Conditional Forward Diffusion, CFD):与标准DDPM仅对干净参考图像添加噪声不同,CFD将条件图像(即待增强的退化水下图像)和参考图像(高质量图像)共同引入前向过程。其数学表达式(论文公式7)为:q(xt|xt-1, y) = N(xt; √αt xt-1 + ω√(1-αt) y, αt I)。其中,y为条件图像,x为参考图像,αt是预设的噪声调度表,ω是一个控制条件信息增强程度的缩放参数(范围0.1-0.5)。这一设计的核心思想是,随着扩散步数t增加,条件图像y对噪声分布的影响逐渐加强,使得扩散过程从一开始就融合了退化图像的语义信息,从而更好地建模水下退化。

  2. 可变分类器自由引导机制(Variable Classifier-Free Guidance, Variable-CFG):在反向扩散过程中,为了强化条件控制并生成更精确的图像,论文采用了CFG思想。但标准的CFG使用固定的引导尺度s,这在迭代过程中可能导致误差累积。为此,REAL-UDPM提出了Variable-CFG,将s设置为与时间步相关的动态值:s = (1 - λαt)(λ=0.5)。代入CFG的噪声预测公式后得到(论文公式11):ε̂θ(xt, t, y) = (1 - λαt)·εθ_cond(xt, t, y) + λαt·εθ_uncond(xt, t)。这意味着在反向扩散早期(t大,αt小),条件预测的权重高,引导模型遵循条件信息;随着过程接近完成(t小,αt大),无条件预测的权重增加,这有助于抑制由CFG引起的累积误差,使预测结果更贴近真实的干净图像分布。

  3. 轻量级快速增强网络(Fast-UIE):为了进一步提升生成质量,论文设计了一个轻量级的CNN网络——Fast-UIE,用于在条件图像输入扩散模型之前对其进行预处理和初步增强。该网络结构(图3所示)包含多个卷积块、最大池化层和跳跃连接,其损失函数结合了均方误差(MSE)损失、结构相似性(SSIM)损失和感知损失(基于VGG19网络提取的特征)。Fast-UIE的作用是为扩散模型提供更清晰、色彩更准确的引导信号,从而在细节恢复和色彩保真度上提供额外助力。

环节二:反向扩散与加速采样策略 在反向扩散采样阶段,REAL-UDPM采用了基于常微分方程(ODE)的确定性采样方法(灵感来源于DDIM和DPM-Solver++),摒弃了随机微分方程(SDE)中的随机噪声项(即设置公式12中的σt=0)。这使得采样过程更加高效和稳定。结合CFD和Variable-CFG,最终的ODE形式反向采样公式得以推导(论文公式12)。关键在于,通过这种设计,模型仅需4个采样步骤即可合成高质量图像,这是实现实时处理(达到30 FPS)的核心技术保障。完整的训练和推理算法分别以算法1和算法2的形式在论文中给出。

环节三:实验设计与实现细节 为了全面验证模型性能,研究团队进行了系统性的实验。训练阶段使用了公开的UIEB数据集(890对图像)。评估则在五个广泛认可的基准数据集上进行:Test-UIEB(60张)、Test-UFO(120张)、Test-EUVP(515张)、Test-U45(45张)以及Test-UIQS(用于特定实验)。这些数据集涵盖了不同退化程度和水下场景,确保了评估的全面性和鲁棒性。

模型采用PyTorch框架实现,在NVIDIA A6000 GPU上进行训练和测试。训练批次大小为16,共500个epoch,学习率为1e-4。在比较实验中,REAL-UDPM与众多先进方法进行了对比,包括传统方法(IBLA、MLLE、UDCP、UNTV)、基于CNN/GAN的深度学习方法(WaterNet、FUNIE-GAN、PUIE-MP、UWNet、U-Transformer)以及另一个基于扩散模型的方法DiffWater。

环节四:评估指标与下游任务验证 评估采用全参考和无参考图像质量评价指标。全参考指标包括峰值信噪比(PSNR)、结构相似性(SSIM)、视觉显著性诱导指数(VSI)和学习感知图像块相似度(LPIPS)。无参考指标包括水下图像质量度量(UIQM)和水下彩色图像质量评价(UCIQE)。此外,还记录了处理每张图像(分辨率为255x255)的平均时间以评估推理速度。

为了证明REAL-UDPM的实用价值,研究还进行了两项重要的下游任务验证实验:1)水下目标检测:将REAL-UDPM增强前后的图像输入YOLOv9模型,检测海胆和海星,对比检测精度。2)特征丰富度分析:对原始图像、REAL-UDPM增强图像和真实图像(Ground Truth)进行Canny边缘检测和SIFT角点检测,统计检测到的边缘像素数和关键点数量,量化增强对图像结构细节的改善效果。

主要研究结果 实验结果为REAL-UDPM的有效性和优越性提供了强有力的数据支持。

在定量指标方面:REAL-UDPM在五个基准数据集上均取得了具有竞争力的优异表现。例如,在Test-UFO数据集上(表2),其PSNR(26.17)、SSIM(0.839)、VSI(0.904)、UIQM(1.428)和UCIQE(0.675)全部位列第一,且LPIPS(0.087)最低,表明其增强结果在感知上与真实图像非常接近。在Test-UIEB数据集上(表3),其PSNR(24.79)和SSIM(0.924)同样领先。值得注意的是,REAL-UDPM在UIQM和UCIQE这两个无参考指标上的突出表现,说明其不仅能准确恢复结构,还能有效提升图像的色彩丰富度和视觉舒适度。与同为扩散模型的DiffWater相比,REAL-UDPM在性能相当甚至更优的同时,将单图处理时间从惊人的48.34秒降低到了0.031秒,实现了超过1500倍的加速,充分证明了其加速采样策略的巨大成功。

在定性视觉对比方面(图4-7):视觉结果清晰地表明,REAL-UDPM能够有效校正水下图像常见的蓝绿色偏,去除雾状模糊,恢复丢失的红色通道信息,并显著增强图像的细节和对比度。相比传统方法常出现的颜色过矫正、细节损失或引入伪影等问题,以及部分深度学习方法可能产生的输出不一致或纹理退化,REAL-UDPM生成的结果在色彩自然度、清晰度和细节保留上更为出色。

在消融研究方面(图8,表5):通过对Fast-UIE、CFD、Variable-CFG等核心模块进行逐一移除的测试,验证了每个组件的重要性。其中,移除Variable-CFG导致的性能下降(UIQM降低0.321,UCIQE降低0.099)最大,其次是CFD。使用固定尺度CFG的实验也表明,其效果不如动态调整的Variable-CFG。这直接证明了论文所提创新机制对于提升模型性能的必要性。

在下游任务应用方面:实验结果极具说服力。1)目标检测(图9):在原始退化图像上,YOLOv9出现了误检和漏检;而经REAL-UDPM增强后,目标检测变得准确且清晰,误检消失,证明了增强能为高层视觉任务提供更可靠的输入。2)特征丰富度分析(图10):REAL-UDPM增强图像的Canny边缘像素数和SIFT关键点数量,不仅远超原始图像,甚至在某些情况下超过了真实图像。例如在图10(1)中,增强图像的Canny边缘数(6461)远高于原始图(2932)和真实图(4060)。这定量地证实了该模型在增强图像结构细节和特征可检测性方面的强大能力。3)真实海洋场景测试(图11):使用遥控潜水器(ROV)在真实浑浊海水中采集的图像,经REAL-UDPM处理后,清晰度大幅提升,Canny细节和SIFT角点数量平均提升了数倍,展示了模型在实际复杂环境下的良好泛化能力和应用潜力。

结论与研究价值 本研究成功提出并验证了REAL-UDPM——一个基于快速条件去噪扩散概率模型的实时水下图像增强框架。通过集成条件前向扩散、可变分类器自由引导和轻量级快速增强网络三大创新模块,并采用ODE加速采样策略,该模型在仅需4步采样的情况下,即可实现高质量的水下图像实时增强(30 FPS)。

其科学价值在于:1)为扩散模型在特定领域(水下图像增强)的高效应用提供了新的架构设计范式,特别是CFD和Variable-CFG的引入,解决了条件建模和误差累积的关键问题;2)证明了通过精心设计的ODE采样,扩散模型完全能够突破其固有的慢速瓶颈,满足实时性要求,拓宽了其应用边界。

其应用价值则更为直接和显著:REAL-UDPM在多个公开基准测试中达到了最先进的性能,并且显著提升了下游任务如目标检测的准确性。这使其有望直接应用于水下机器人导航、海洋生物调查、水下设施检测、潜水辅助等实际场景,为这些领域提供清晰、可靠的实时视觉感知能力,具有重要的工程实践意义。

研究亮点 本研究的亮点突出体现在以下几个方面: 1. 高质量与实时性的兼得:这是最核心的贡献。在保持甚至超越现有SOTA方法视觉增强质量的同时,实现了从“分钟级”到“毫秒级”(30 FPS)的跨越,解决了扩散模型应用于实时任务的重大障碍。 2. 针对性的扩散过程重设计:提出的CFD和Variable-CFG并非通用技巧,而是紧密围绕水下图像增强任务特点(退化模型、误差来源)进行的创新,显著提升了模型在该领域的性能上限和稳定性。 3. 系统且深入的实验验证:不仅进行了全面的定量与定性对比,还通过细致的消融实验证明了各模块的有效性,更通过目标检测和特征分析等下游任务,从应用层面证实了模型的价值,论证链条完整而坚实。 4. 轻量级引导网络的协同:Fast-UIE网络的设计与预训练,以较小的计算成本为扩散过程提供了更好的初始条件,体现了传统CNN方法与新兴扩散模型有效结合的思路。

其他有价值的内容 论文还明确指出了模型的当前局限性与未来方向。例如,在高度浑浊的水域中,对颜色散射的抑制可能仍不完全,有时会产生过度增强的结果。这为后续研究指明了改进方向。作者计划未来进一步优化模型,以部署在嵌入式平台上,实现水下航行器的机载实时增强,从而进一步提升水下探索系统的效率和自主性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com