分享自:

基于小波的扩散模型在低光照图像增强中的应用

期刊:ACM Transactions on Graphics (TOG)DOI:10.1145/3618373

基于小波的扩散模型在低光照图像增强中的应用研究

作者与发表信息

本研究由Hai Jiang(四川大学)、Ao Luo和Haoqiang Fan(北京旷视科技有限公司)、Songchen Han(四川大学)以及Shuaicheng Liu(电子科技大学)共同完成。论文《Low-light Image Enhancement with Wavelet-based Diffusion Models》于2023年12月4日发表在ACM Transactions on Graphics (TOG)期刊第42卷第6期,开放获取支持来自电子科技大学、四川大学和北京旷视科技有限公司。截至2025年12月23日,该论文已被引用130次,下载量达1528次。

学术背景

本研究属于计算摄影学(Computational Photography)领域,聚焦于低光照图像增强(Low-light Image Enhancement, LLIE)这一关键问题。在弱光条件下捕获的图像通常存在视觉质量差的问题,严重影响下游视觉任务(如图像分类、目标检测、自动驾驶和视觉导航等)的性能。

传统方法主要依赖基于优化的规则或手工设计的先验知识,而深度学习方法的出现部分解决了这些问题。然而现有方法仍存在诸多不足:监督学习方法虽能优化PSNR和SSIM等失真指标,但缺乏对人类感知视觉保真度的考虑;无监督方法虽对未见场景有更好泛化能力,但无法控制增强程度且可能产生视觉上不吸引人的结果(如过度增强或噪声放大)。近期,扩散模型(Diffusion Models, DMs)因其在图像合成和恢复任务中的出色表现而受到关注,但仍面临计算资源消耗大、推理时间长以及恢复不稳定等问题。

本研究旨在解决这些挑战,提出一种名为DiffLL的鲁棒高效基于扩散的低光照图像增强方法。具体目标包括:1)利用扩散模型的生成能力和小波变换的优势实现高效恢复;2)通过创新的训练策略确保内容一致性;3)设计高频恢复模块提升细节重建质量。

研究方法与流程

1. 小波变换预处理

研究首先使用K次二维离散小波变换(2D-DWT)将低光照图像转换到小波域。每次变换产生一个代表图像全局信息的平均系数(Average coefficient)和三组代表图像稀疏垂直、水平和对角线细节的高频系数。通过这种变换,空间维度显著减小(每次变换缩小4倍)且不损失信息。图4的实验证明,平均系数包含更丰富的全局光照信息,而高频系数主要保存局部细节。

2. 小波条件扩散模型(WCDM)

研究创新性地提出了小波条件扩散模型(Wavelet-based Conditional Diffusion Model, WCDM),在平均系数而非原始图像空间或潜在空间上进行扩散操作。与传统扩散模型相比,这种方法具有三大优势: 1) 通过小波变换显著减少计算资源消耗和推理时间 2) 在训练阶段同时执行前向扩散和去噪过程,使模型学会稳定采样 3) 采用创新的训练策略(算法1)确保推理时的内容一致性

具体实现上,WCDM采用常用的U-net架构作为噪声估计网络,时间步长T设为200,隐式采样步数S设为10。损失函数在传统扩散目标函数(公式8)基础上增加了L2距离项(公式9),确保恢复系数与参考系数接近。

3. 高频恢复模块(HFRM)

针对高频系数的恢复,研究设计了专门的高频恢复模块(High-Frequency Restoration Module, HFRM)。该模块采用深度可分离卷积提取特征,利用交叉注意力层使垂直和水平信息补充对角线细节,并通过渐进扩张残差块(dilation rate d={1,2,3,2,1})进行局部恢复。表6的消融实验证明,这种设计比不使用互补信息或反向互补的设计更有效。

4. 损失函数设计

总体损失函数(公式13)包含三部分: 1) 扩散目标函数:确保生成质量 2) 细节保留损失:结合MSE损失和TV损失,重建高频系数 3) 内容损失:结合L1损失和SSIM损失,最小化恢复图像与参考图像的内容差异

表7的消融研究表明,这三个损失项都对最终性能有重要贡献,缺一不可。

主要研究结果

定量评估结果

在LOLv1、LOLv2-real和LSRW等基准测试集上的实验表明,DiffLL方法在失真指标和感知质量上都优于现有最优方法:

  1. 在LOLv1测试集上,PSNR达到26.336dB,比第二名SNRNet提高1.726dB;SSIM为0.845,提高0.003
  2. 在LOLv2-real测试集上,PSNR(28.857dB)比第二名Restormer提高3.947dB;SSIM(0.876)比第二名URetinex-Net提高0.018
  3. 在LSRW测试集上,PSNR(19.281dB)和SSIM(0.552)分别比现有方法至少提高1.01dB和0.023

感知指标方面,DiffLL在所有数据集上都获得了最低的LPIPS和FID分数(FID<50),表明其生成图像具有令人满意的视觉质量且能很好地泛化到未知数据集。

效率优势

表2显示,DiffLL在效率方面具有显著优势: 1. 处理600×400图像平均耗时0.157秒,内存消耗1.850GB 2. 比之前的扩散方法快至少70倍,计算资源消耗少3倍 3. 能处理2K分辨率图像(2560×1440),而多数对比方法出现内存不足错误

高分辨率图像恢复

在UHD-LL测试集上(表3),尽管仅使用LOLv1训练集训练,DiffLL仍表现优异: 1. PSNR(21.356dB)比第二名URetinex-Net提高0.390dB 2. SSIM(0.803)比第二名Uformer提高0.010 3. 即使与专门针对UHD任务的Uhdfour8×相比,也未呈现显著劣势

非配对数据集表现

在DICM、MEF等五个常用非配对基准测试上(表4),DiffLL在NIQE、BRISQUE和PI三个非参考感知指标上获得了最低平均分数,证明其对未见真实场景的良好泛化能力。

定性比较结果

图6-8的视觉比较表明: 1. 现有方法存在曝光不正确、颜色失真、噪声放大或伪影等问题 2. DiffLL能有效改善全局对比度,呈现生动色彩且不引入混沌内容 3. 在超高分辨率图像上,DiffLL避免了其他方法出现的网格效应和混乱内容

应用价值验证

低光照人脸检测实验(图9)显示: 1. 使用DiffLL作为预处理步骤,DSFD检测器的平均精度(AP)从26.4%提升至38.5% 2. 在P-R曲线的高召回区域表现尤其突出 3. 能有效提亮面部区域同时保持良好曝光区域,使检测器在弱光场景更鲁棒

研究结论与价值

科学价值

  1. 首次将小波变换与扩散模型结合用于低光照图像增强,提出WCDM框架
  2. 开发了创新的训练策略,解决扩散模型内容不一致问题
  3. 设计了高效的高频恢复模块,通过信息互补提升细节重建质量

应用价值

  1. 在保持高质量的同时实现显著加速(70×以上)
  2. 可处理2K甚至更高分辨率图像,具有实际部署潜力
  3. 在下游任务(如人脸检测)中展现出实用价值

研究亮点

  1. 方法论创新:首次提出小波条件扩散模型,通过在小波域操作大幅提升效率
  2. 训练策略创新:同时进行前向扩散和去噪训练,确保推理稳定性
  3. 模块设计创新:HFRM利用垂直和水平信息补充对角线细节
  4. 性能突破:在多个基准测试上创下新纪录,同时保持高效率
  5. 应用验证:通过人脸检测任务证实了实用价值

其他有价值内容

  1. 开源代码:研究在GitHub公开了实现代码(https://github.com/jianghaiscu/diffusion-low-light)
  2. 详细的消融研究:验证了各组件(小波尺度、采样步数、HFRM设计等)的影响
  3. 全面的对比实验:与四大类方法(基于优化、学习、Transformer和扩散的方法)进行比较

这项研究为低光照图像增强领域提供了新的思路和高效解决方案,其创新性的方法框架也有潜力拓展到其他图像恢复任务中。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com