本研究由Hengyue Bi、Long Chen、Jingchao Cao、Jingyang Wang、Jinghao Sun、Yuan Rao和Junyu Dong(IEEE会员)共同完成,其中主要作者来自中国海洋大学计算机科学与技术系,Long Chen来自伦敦大学学院医学物理与生物医学工程系。该研究已发表于IEEE Transactions on Circuits and Systems for Video Technology期刊,预印本版本显示将于2025年正式出版,DOI编号为10.1109/TCSVT.2025.3585429。
水下图像增强(Underwater Image Enhancement, UIE)是计算机视觉领域的重要研究方向。由于光在水下传播时会受到波长和距离依赖的衰减和散射影响,导致水下图像普遍存在低对比度、严重色偏和细节模糊等问题。传统基于深度学习的方法依赖大量配对数据学习数据分布先验(扩散先验),但由于水下环境特殊性,获取高质量配对数据极为困难,现有UIE数据集在质量和数量上都十分有限(如UIEB仅890张图像,SUIM-E仅1515张图像),远少于常规图像处理数据集(如FlickrFaces-HQ含7万张图像),这导致扩散模型学习到的先验存在偏差,性能受限。
针对这一挑战,研究团队提出SEADIFF方法,通过结合波长和距离依赖的退化感知机制来增强水下扩散先验的学习。该方法创新性地将领域知识与扩散模型的生成能力相结合,旨在解决数据稀缺条件下的水下图像增强问题。研究目标包括:(1)设计能够捕捉水下退化特性的先验知识挖掘模型;(2)开发能够有效融合退化先验与扩散先验的生成框架;(3)在多种水下场景和下游任务中实现最优性能。
PKMM包含两个核心组件:
PPEM基于水下成像物理模型[46,47]:Iy(x) = J(x)t(x) + A(1-t(x)),其中J(x)为场景辐射,A为全局背景光(Global Background Light, GBL),t(x)=e-β(x)d(x)为传输图。PPEM通过三个子模块估计未知参数: - 深度估计器:采用Depth Anything[45]基础模型进行零样本深度预测,通过归一化处理得到d(x)∈RH×W - beta估计器:由卷积块、空洞块和特征投影仪组成,通过全局平均池化(GAP)和MLP网络预测波长依赖的衰减系数β(x)∈R3 - GBL估计器:使用高斯滤波器模糊输入图像获取全局背景光A
通过这些估计,PPEM可重建场景辐射J(x) = Iy(x)(1/e-β(x)d(x)) - A(1/e-β(x)d(x) - 1)
CPEM从log-chroma颜色空间提取2D直方图特征: H(x)(u,v,i) ∝ Σk(iuI(x),ivI(x),u,v)Iy(x) 其中k为逆二次核函数[54],i∈{r,g,b}表示颜色通道。归一化后的H(x)∈R3×m×m作为颜色分布先验。
DADM采用改进的条件扩散框架: - 参数化方案:将传统噪声预测(ε-prediction)改为直接预测内容(x0-prediction),优化目标变为LDM = E∥x0-fθ(xt,c,t)∥2 - 条件构建:融合输入图像、颜色直方图和物理先验:c = Iy(x)⊕H(x)⊕J(x) - 网络架构:采用轻量级U-Net,将自注意力层替换为空洞卷积以扩大感受野 - 损失函数:结合内容损失和感知损失:Ltotal = LDM + λLperceptual,其中Lperceptual基于预训练VGG-19计算
研究团队在多个公开数据集上进行评估: - 训练集:UIEB-790、EUVP-2185、SUIM-E-1525 - 测试集:UIEB-100/60、EUVP-515、SUIM-E-110、U45 - 评价指标: - 全参考(FR):PSNR、SSIM、MSE - 无参考(NR):URanker、UCIQE、UIQM - 对比方法:25种SOTA方法,包括5种模型无关方法、3种基于物理模型方法、13种深度学习方法、4种扩散基方法 - 实现细节:NVIDIA GTX 2080Ti GPU,AdamW优化器(lr=0.0001),batch size=5,图像尺寸336×336,扩散步数T=1000
在全参考评估中,SEADIFF表现优异: - S110数据集:PSNR 24.9(提高4.8%)、SSIM 0.954(提高0.4%) - U100数据集:PSNR 24.4(提高3.8%)、MSE 0.465(降低30.8%) - E515数据集:PSNR 26.7(提高1.5%)
在无参考评估中,虽然传统方法在某些指标上表现更好(如MLle在U45上UIQM最高),但可视化分析表明这些方法常存在过度增强、伪影等问题,而SEADIFF在保持自然视觉效果的同时获得合理分数。
本研究提出的SEADIFF方法通过创新性地结合退化感知机制与扩散模型,有效解决了水下图像增强中的关键挑战。主要贡献包括: 1. 科学价值: - 提出首个同时整合波长和距离依赖退化感知的水下扩散模型 - 开发了基于物理模型和颜色统计的双重先验嵌入框架 - 验证了x0-参数化在水下图像生成中的优越性
应用价值:
方法论创新:
研究团队指出当前方法的主要局限在于计算效率(处理336×336图像需13.8秒),未来将探索更高效的扩散采样策略以实现在线应用。此外,如何进一步降低对配对数据的依赖,以及扩展到视频增强领域也值得深入研究。
该工作得到了中国国家自然科学基金(42106193、41927805)和山东省自然科学基金(2024ZLGX06)的支持,相关代码已发布于GitHub(https://github.com/henry-bi/seadiff)。