一、 研究概览与发表信息
本文的题目为“WaterDiffusion: Learning a Prior-Involved Unrolling Diffusion for Joint Underwater Saliency Detection and Visual Restoration”。该研究由Laibin Chang1, Yunke Wang2, Longxiang Deng1, Bo Du1*, Chang Xu2* 共同完成。主要作者来自两个机构:1 武汉大学计算机学院、国家多媒体软件工程技术研究中心、人工智能研究院、多媒体与网络通信工程湖北省重点实验室(中国);2 悉尼大学计算机学院(澳大利亚)。此项研究成果发表于第三十九届人工智能促进协会人工智能会议(AAAI-25),作为该会议录用的学术论文之一。
二、 学术背景与研究目的
本研究隶属于计算机视觉领域,具体聚焦于水下视觉任务。水下显著性目标检测(Underwater Salient Object Detection, USOD)在基于视觉的海洋探索任务中扮演着关键角色,其目标是从复杂的水下场景中快速识别出视觉上最引人注目的物体。然而,由于水下环境的特殊性——例如光的选择性吸收和介质散射——导致捕获的原始水下图像普遍存在颜色偏差、低对比度、细节模糊等严重的质量退化问题。这种退化使得直接从原始图像中精确定位和分割显著物体变得极具挑战性。
传统的解决思路是一种两阶段(串联式)方法:首先使用水下图像增强(Underwater Image Enhancement, UIE)技术恢复图像视觉质量,然后再对增强后的图像进行显著性检测。然而,这种分离的流程存在一个关键缺陷:它忽略了视觉复原过程本身可能对显著性检测带来的潜在积极影响,两者被割裂处理,未能形成协同效应。
与此同时,扩散模型(Diffusion Models)在图像生成与修复任务中展现出卓越性能,尤其在噪声鲁棒性方面表现优异。尽管已有一些工作尝试利用扩散模型进行水下图像增强,但它们通常仅专注于全局的图像去噪与增强,并未与显著性检测这一局部感知任务相结合。迄今为止,尚未有研究探索基于扩散模型的、能协同完成水下图像复原与显著性检测的联合框架。
基于以上分析,本研究的主要目标是:提出一个统一的、能够协同执行水下显著性目标检测与视觉复原的生成模型。研究旨在解决现有两阶段方法的局限性,通过一个单一的网络同时提升图像质量和精准定位显著物体,实现两个任务的相互促进。
三、 详细研究流程与方法论
本研究提出了一种名为 WaterDiffusion 的、融合了先验知识的展开扩散模型。整个框架的核心思想是,将显著性检测重新定义为一个联合任务:在复原清晰图像的同时,迭代地优化显著性掩码。模型以原始退化水下图像为输入,通过一个精心设计的扩散过程,并行输出增强后的清晰图像和精确的显著性物体掩码。
研究流程包含以下几个核心模块和步骤:
动态显著性感知联合扩散(Dynamic Saliency-Aware Joint Diffusion):
y为条件不同,WaterDiffusion 引入了一个动态的显著性掩码m_t作为额外的条件。在反向扩散过程中,模型不仅学习去噪以恢复清晰图像x_{t-1},同时还学习预测并细化当前时间步的显著性掩码。其联合反向过程定义为 pθ(x_{t-1} | x_t, y, m_t),这意味着在每一步去噪时,模型都同时参考了原始输入图像和当前估计的显著性掩码。t与前一层的特征f_in进行级联,并利用自注意力机制来确保生成内容的高保真度。这些模块构成了噪声与掩码预测器(类似于U-Net)的主干。介质传输先验辅助显著性定位(Medium Transmission Prior, MTP):
y中估算出传输图t_m(x)。t_m(x)作为一个特征选择器,对SAJD模块提取的中间特征f_in进行加权。具体操作如公式 f_out(x) = f_in(x) + f_in(x) × t_m(x) 所示,传输图中值较高的像素(通常对应衰减较小的前景/显著区域)会获得更高的权重,从而引导网络更加关注潜在的显著物体区域,辅助其精确定位。门控引导的特征选择以提升泛化能力(Gate-Guided Feature Selection, GFS):
γ,然后通过设定阈值(如与γ的均值比较)将其转换为二值开关指示器θ。对于每个特征通道,若θ(i)=1,则选择原始特征;若θ(i)=0,则选择归一化后的特征。最终输出特征f_out(x)是这两种特征根据θ进行通道级选择的加权和。这种设计使模型能够根据输入特征自身的情况,灵活地平衡特征的辨别力与泛化能力。基于半二次分裂的展开式采样优化(Unrolling Sampling with Half-Quadratic Splitting):
ψ(x_t) = t_m × m_t × x_t + (1 - m_t) × x_t。该函数利用当前估计的传输图t_m和显著性掩码m_t对生成的中间样本x_t进行加权,突出显著区域。x和掩码m的估计转化为一个约束优化问题。采用半二次分裂(Half-Quadratic Splitting)算法,该问题被分解为三个子问题交替求解:更新辅助变量φ(与清晰图像相关)、更新辅助变量ϕ(与掩码相关)、以及通过WaterDiffusion模型的反向采样步骤更新联合状态<x|m>。这种展开式迭代采样过程使得掩码信息能够被逐步细化,并与图像复原过程深度耦合,相互促进。损失函数与训练:
ϵ̂_t和显著性掩码m̂_t。总损失函数L_total由两部分组成:扩散噪声预测损失 L_noise = E ||ϵ̂_t - ϵ_t||^2 和显著性掩码细化损失 L_mask = E ||m̂_t - m_gt||^2,其中m_gt是真实的显著性掩码。两项损失通过权重ζ=0.1进行加权求和。实验设置与评估:
四、 主要研究结果与分析
定性结果:
定量结果:
模型效率评估:
消融实验结果分析:
五、 研究结论与价值
本研究成功提出并验证了WaterDiffusion,这是一个开创性的、融合先验知识的展开扩散模型,用于协同完成水下显著性目标检测与视觉复原。研究的主要结论是:通过将动态显著性掩码嵌入扩散过程作为潜在特征,并引入水下介质传输先验来辅助显著性定位,可以构建一个统一的生成框架。该框架利用门控机制自适应选择特征以提升泛化能力,并采用基于半二次分裂的展开式采样来迭代优化输出结果。
此项研究的科学价值在于: 1. 方法创新:首次将扩散模型应用于水下显著性检测任务,并创新性地提出了一个联合学习范式,打破了传统两阶段串行处理的壁垒,实现了两个任务的端到端协同优化与相互促进。 2. 理论贡献:提出了动态显著性感知扩散、介质传输先验集成、门控特征选择等新颖模块,为如何将领域先验知识(水下物理模型)与前沿生成模型(扩散模型)相结合,以解决特定领域的联合视觉任务提供了新的思路和技术路径。 3. 性能突破:在多个公开基准数据集上的实验表明,WaterDiffusion在视觉复原和显著性检测两个任务上均达到了最先进的性能,且推理效率优于串联的两阶段方法。
其应用价值显著,可广泛应用于需要同时进行水下图像质量提升和目标识别/分割的场合,如自主水下航行器(AUV)导航、海洋生物监测、水下设施巡检、海底考古等,为海洋视觉探索提供了更强大、更高效的智能工具。
六、 研究亮点