分享自:

基于退化感知扩散模型的水下图像增强方法

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/TCSVT.2025.3585429

基于退化感知扩散模型的水下图像增强方法SEADIFF研究报告

作者及发表信息

本研究由Hengyue Bi、Long Chen、Jingchao Cao、Jingyang Wang、Jinghao Sun、Yuan Rao和Junyu Dong(IEEE会员)共同完成,其中主要作者来自中国海洋大学计算机科学与技术系,Long Chen来自伦敦大学学院医学物理与生物医学工程系。该研究已发表于IEEE Transactions on Circuits and Systems for Video Technology期刊,预印本版本显示将于2025年正式出版,DOI编号为10.1109/TCSVT.2025.3585429。

研究背景与目的

水下图像增强(Underwater Image Enhancement, UIE)是计算机视觉领域的重要研究方向。由于光在水下传播时会受到波长和距离依赖的衰减和散射影响,导致水下图像普遍存在低对比度、严重色偏和细节模糊等问题。传统基于深度学习的方法依赖大量配对数据学习数据分布先验(扩散先验),但由于水下环境特殊性,获取高质量配对数据极为困难,现有UIE数据集在质量和数量上都十分有限(如UIEB仅890张图像,SUIM-E仅1515张图像),远少于常规图像处理数据集(如FlickrFaces-HQ含7万张图像),这导致扩散模型学习到的先验存在偏差,性能受限。

针对这一挑战,研究团队提出SEADIFF方法,通过结合波长和距离依赖的退化感知机制来增强水下扩散先验的学习。该方法创新性地将领域知识与扩散模型的生成能力相结合,旨在解决数据稀缺条件下的水下图像增强问题。研究目标包括:(1)设计能够捕捉水下退化特性的先验知识挖掘模型;(2)开发能够有效融合退化先验与扩散先验的生成框架;(3)在多种水下场景和下游任务中实现最优性能。

研究方法与技术路线

1. 先验知识挖掘模型(PKMM)

PKMM包含两个核心组件:

(1) 物理先验嵌入模块(PPEM)

PPEM基于水下成像物理模型[46,47]:Iy(x) = J(x)t(x) + A(1-t(x)),其中J(x)为场景辐射,A为全局背景光(Global Background Light, GBL),t(x)=e-β(x)d(x)为传输图。PPEM通过三个子模块估计未知参数: - 深度估计器:采用Depth Anything[45]基础模型进行零样本深度预测,通过归一化处理得到d(x)∈RH×W - beta估计器:由卷积块、空洞块和特征投影仪组成,通过全局平均池化(GAP)和MLP网络预测波长依赖的衰减系数β(x)∈R3 - GBL估计器:使用高斯滤波器模糊输入图像获取全局背景光A

通过这些估计,PPEM可重建场景辐射J(x) = Iy(x)(1/e-β(x)d(x)) - A(1/e-β(x)d(x) - 1)

(2) 颜色先验嵌入模块(CPEM)

CPEM从log-chroma颜色空间提取2D直方图特征: H(x)(u,v,i) ∝ Σk(iuI(x),ivI(x),u,v)Iy(x) 其中k为逆二次核函数[54],i∈{r,g,b}表示颜色通道。归一化后的H(x)∈R3×m×m作为颜色分布先验。

2. 退化感知扩散模型(DADM)

DADM采用改进的条件扩散框架: - 参数化方案:将传统噪声预测(ε-prediction)改为直接预测内容(x0-prediction),优化目标变为LDM = E∥x0-fθ(xt,c,t)∥2 - 条件构建:融合输入图像、颜色直方图和物理先验:c = Iy(x)⊕H(x)⊕J(x) - 网络架构:采用轻量级U-Net,将自注意力层替换为空洞卷积以扩大感受野 - 损失函数:结合内容损失和感知损失:Ltotal = LDM + λLperceptual,其中Lperceptual基于预训练VGG-19计算

3. 实验设计

研究团队在多个公开数据集上进行评估: - 训练集:UIEB-790、EUVP-2185、SUIM-E-1525 - 测试集:UIEB-100/60、EUVP-515、SUIM-E-110、U45 - 评价指标: - 全参考(FR):PSNR、SSIM、MSE - 无参考(NR):URanker、UCIQE、UIQM - 对比方法:25种SOTA方法,包括5种模型无关方法、3种基于物理模型方法、13种深度学习方法、4种扩散基方法 - 实现细节:NVIDIA GTX 2080Ti GPU,AdamW优化器(lr=0.0001),batch size=5,图像尺寸336×336,扩散步数T=1000

主要研究结果

1. 定量评估结果

在全参考评估中,SEADIFF表现优异: - S110数据集:PSNR 24.9(提高4.8%)、SSIM 0.954(提高0.4%) - U100数据集:PSNR 24.4(提高3.8%)、MSE 0.465(降低30.8%) - E515数据集:PSNR 26.7(提高1.5%)

在无参考评估中,虽然传统方法在某些指标上表现更好(如MLle在U45上UIQM最高),但可视化分析表明这些方法常存在过度增强、伪影等问题,而SEADIFF在保持自然视觉效果的同时获得合理分数。

2. 定性评估结果

  • 颜色校正:能有效处理蓝偏、蓝绿偏和绿偏等多种色偏情况
  • 一致性保持:对连续帧能保持稳定的增强效果,避免颜色突变
  • 细节保留:在鱼类纹理等复杂场景中能清晰恢复细节,如图6中鱼尾和鱼鳞的精细结构
  • 对比扩散基方法:相比DiffWater的黄偏、PA-Diff的不一致性等问题,SEADIFF结果更自然

3. 消融实验结果

  • PPEM贡献:PSNR提高0.6(28.2%),SSIM提高0.009(10.5%)
  • CPEM贡献:PSNR提高0.8(29.3%),颜色协调性显著改善
  • x0-参数化:相比ε-参数化,训练效率提升2.5倍,PSNR提高24.9%
  • 整体模型:组合所有组件后,PSNR总提升34.8%,MSE降低79.2%

4. 应用测试结果

  • 水下显著实例分割:准确分割潜水员目标,减少背景干扰(图10)
  • 特征匹配:SIFT特征匹配数提升11倍(图11)
  • 水下三维重建:在UWSLAM数据集上生成19,975个稀疏3D点,表现最优(图12)

研究结论与价值

本研究提出的SEADIFF方法通过创新性地结合退化感知机制与扩散模型,有效解决了水下图像增强中的关键挑战。主要贡献包括: 1. 科学价值: - 提出首个同时整合波长和距离依赖退化感知的水下扩散模型 - 开发了基于物理模型和颜色统计的双重先验嵌入框架 - 验证了x0-参数化在水下图像生成中的优越性

  1. 应用价值

    • 在多个标准测试集上达到SOTA性能
    • 显著提升下游任务(如分割、匹配、3D重建)的表现
    • 代码开源促进社区发展
  2. 方法论创新

    • PKMM实现了物理模型与数据驱动学习的有机融合
    • DADM通过改进的优化目标提高了训练效率和条件利用
    • 整套方案在有限数据条件下展现出强泛化能力

研究亮点与特色

  1. 多模态先验融合:首次同时利用物理成像模型和颜色分布统计作为互补条件信号
  2. 退化感知机制:通过距离和波长双维度建模水下退化特性
  3. 高效训练策略:x0-参数化使模型在400k迭代即收敛,远超传统扩散模型
  4. 广泛适用性:在多种水下场景(不同水质、光照、深度)均表现稳定

局限性与未来方向

研究团队指出当前方法的主要局限在于计算效率(处理336×336图像需13.8秒),未来将探索更高效的扩散采样策略以实现在线应用。此外,如何进一步降低对配对数据的依赖,以及扩展到视频增强领域也值得深入研究。

该工作得到了中国国家自然科学基金(42106193、41927805)和山东省自然科学基金(2024ZLGX06)的支持,相关代码已发布于GitHub(https://github.com/henry-bi/seadiff)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com