分享自:

DFFN

期刊:journal of latex class files

关于《Spatial-Frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement》研究的学术报告

本报告旨在向中文研究界介绍一篇发表于《Journal of LaTeX Class Files》第18卷第9期(2020年9月)的学术论文。该研究由来自青岛大学计算机科学与技术学院的姚子澍、范国栋、范金富、甘敏(IEEE高级会员)以及陈俊龙(IEEE Fellow,同时任职于华南理工大学)共同完成。论文题为《Spatial-Frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement》,即《用于低光照遥感图像增强的空频双域特征融合网络》。

一、 研究背景与目的

本研究属于计算机视觉与遥感图像处理交叉领域,具体聚焦于低光照图像增强(Low-Light Image Enhancement, LLIE)任务。遥感技术旨在获取清晰的地表场景信息。然而,受夜间、恶劣天气等自然因素影响,获取的遥感图像常存在亮度低、色彩退化、细节丢失等问题,严重影响了后续基于遥感图像的灾害评估、野生动物监测、环境保护等下游任务的性能。因此,开发专门针对低光照遥感图像的增强算法至关重要。

与普通图像相比,遥感图像具有分辨率高、空间复杂度高的特点,地物(如森林、道路)在空间上往往连续分布,导致图像在空间域存在广泛的长程相关性。传统的卷积神经网络(Convolutional Neural Networks, CNNs)依赖局部相关性进行建模,难以有效建立此类长程关联。而基于Transformer的方法虽能关注全局信息,但在处理高分辨率遥感图像时面临计算复杂度高(二次复杂度问题)的挑战,且在小数据集上容易过拟合。另一方面,傅里叶变换(Fourier Transform)能够在不引入大量参数的情况下计算全局信息,使网络更高效地捕获图像整体结构并建立长程关联。此外,作者观察到傅里叶域的两个独特现象:1)振幅(Amplitude)信息主要包含低频特征(如光照、对比度),而相位(Phase)信息则承载着高级语义和细节结构;2)通过交换正常图像与低光照图像的傅里叶振幅和相位,发现亮度退化主要存在于振幅分量中,而其他信息(如细节)则保留在相位分量中。这表明傅里叶变换可以解耦低光照图像的退化信息,将一个复杂的耦合问题分解为两个相对更容易解决的子问题。

基于上述背景与观察,本研究旨在解决现有方法在低光照遥感图像增强中面临的挑战,具体目标包括:1)提出一种能够有效融合空间域与频率域特征、并建立长程依赖的神经网络架构;2)将复杂的低光照增强任务分解为亮度恢复和细节精炼两个子任务,以降低学习难度;3)设计有效的跨阶段、跨尺度信息交互机制,避免多阶段网络中的信息丢失问题;4)构建专门用于低光照遥感图像增强的数据集,以推动该领域的发展。

二、 研究方法与详细流程

本研究提出了一种创新的双域特征融合网络(Dual-domain Feature Fusion Network, DFFN)。整个研究流程可分为网络架构设计、核心模块创新、数据集构建以及实验验证四个主要部分。

第一部分:网络整体架构设计 DFFN采用两阶段渐进式恢复框架,将低光照增强任务明确分解为两个子任务: 1. 振幅照明阶段(Amplitude Illumination Stage):该阶段专注于从低光照图像到正常光照图像的振幅映射学习,核心目标是恢复图像的整体亮度和对比度。其监督目标不是原始正常图像,而是将正常图像的振幅与低光照图像的相位进行逆傅里叶变换后得到的图像,即 F^{-1}(A(I_gt), P(I_low))。这样做是为了迫使网络在第一阶段只学习调整振幅(光照),而不改变相位(细节)。 2. 相位精炼阶段(Phase Refinement Stage):该阶段专注于学习相位信息,以进一步细化图像的细节和纹理。其输入并非第一阶段的直接输出,而是将第一阶段输出图像的振幅与原始低光照图像的相位重新组合(F^{-1}(A(O_a), P(I_low))),以确保输入图像的相位信息来自退化的原始图像,从而让本阶段专注于相位修复。其监督目标是原始的正常光照图像(Ground Truth, GT)。

网络采用编码器-解码器结构。振幅照明阶段使用双域振幅块(Dual-domain Amplitude Block, DDAB)作为基本单元,并通过跳跃连接在编码器与解码器之间传递特征。相位精炼阶段使用双域相位块(Dual-domain Phase Block, DDPB)作为基本单元。两个阶段之间通过专门设计的信息融合仿射模块(Information Fusion Affine Module, IFAM)进行深度信息交互。

第二部分:核心创新模块详解 1. 双域振幅块(DDAB)与双域相位块(DDPB):这两个模块是实现在空间域和频率域并行处理的核心。它们结构对称,均由空间域分支和频率域分支组成。 * 空间域分支:使用两个3x3卷积层来捕获局部空间结构和上下文信息。 * 频率域分支:首先对输入特征进行1x1卷积进行特征精炼,然后进行快速傅里叶变换(FFT)得到振幅和相位分量。在DDAB中,振幅分量通过两个1x1卷积层(为保护频域结构,仅使用1x1卷积)进行处理,同时相位信息通过一个独立分支保留不变。处理后的振幅与原始相位通过逆快速傅里叶变换(IFFT)映射回图像空间,得到频率域特征。DDPB的操作与之相反,它处理相位分量而保持振幅不变。最后,空间域特征和频率域特征通过残差连接进行融合。这种设计使得网络能够同时利用CNN在空间局部建模的优势和傅里叶变换在捕获全局信息方面的效率。

  1. 信息融合仿射模块(IFAM):为了解决多阶段网络中跨阶段、跨尺度信息交互不足的问题,作者设计了IFAM。该模块由两部分构成:

    • 信息融合模块(Information Fusion Module):该模块负责聚合来自第一阶段解码器和第二阶段编码器的所有尺度的特征信息。通过对不同尺度的特征进行上采样、下采样和卷积操作,融合具有不同感受野的特征,生成富含上下文信息的融合特征。
    • 信息仿射模块(Information Affine Module):该模块接收融合后的特征,通过并行的空间上下文信息提取(3x3卷积)和通道上下文信息提取(全局平均池化+1x1卷积)路径,充分挖掘特征信息。然后,基于这些信息生成动态的、与内容相关的自适应权重滤波器,对第二阶段解码器的特征进行仿射变换(逐元素乘加),从而增强网络对全局上下文的表征能力。IFAM使得第二阶段网络能够灵活利用第一阶段学习到的多尺度、跨域特征,显著提升了信息流动和特征表示。
  2. 损失函数设计:网络的总损失函数由两个阶段的损失加权构成。第一阶段损失(L_a)包括:1)初步增强图像O_a与目标图像(由GT振幅和低光照相位合成)之间的L1损失;2)O_a的振幅与GT振幅之间的L1损失。第二阶段损失(L_p)包括:1)最终输出图像O_p与GT之间的L1损失;2)O_p与GT在傅里叶域(整体频域)的L1损失;3)O_p与GT的相位之间的L1损失。这种混合损失函数确保了网络在空间域和频率域、以及在不同子任务上都得到有效监督。

第三部分:数据集构建 由于缺乏公开的、成对的低光照/正常光照遥感图像数据集,本研究构建了两个新数据集: 1. ISAID-Dark数据集(合成数据集,用于训练和验证):基于高分辨率航空图像数据集ISAID,通过随机裁剪和调整大小,生成了3755对训练图像和66对验证图像(分辨率500x500)。为了模拟低光照退化,作者采用了Zero-DCE++方法的逆向曲线变换来调整图像亮度,并添加了随亮度降低而增强的高斯噪声,从而生成了具有不同黑暗程度和噪声水平的逼真低光照图像。此外,还构建了一个包含72张1080p分辨率图像的“高像素”测试子集。 2. DarkRS数据集(真实数据集,仅用于测试):通过无人机在夜间实际拍摄获取,包含86张真实世界的低光照遥感图像,用于评估模型在真实场景下的泛化能力。

作者通过t-SNE可视化、亮度分布分析和信噪比(SNR)分布分析,证明了ISAID-Dark数据集比现有的LOL等通用低光照数据集具有更广的数据范围和更严峻的噪声挑战。

第四部分:实验验证流程 1. 对比方法:选择了8种先进的低光照增强方法进行对比,包括基于曲线的方法(Zero-DCE++)、无监督方法(SCI, NeRCo)以及有监督方法(LLFormer, SNR, CUE, FourLLIE, LANet)。 2. 评估指标:在参考数据集(LOL, ISAID-Dark)上使用峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知相似性指标(LPIPS);在无参考数据集(DICM, NPE, LIME, ExDark, DarkRS)上使用自然图像质量评估器(NIQE)。 3. 实现细节:分别在LOL和ISAID-Dark数据集上训练模型,使用Adam优化器,学习率衰减策略,数据增强包括随机裁剪和翻转。网络初始特征通道数C设为20。 4. 消融实验:为了验证各组件有效性,进行了系列消融研究,包括:两阶段架构的有效性、双域融合方式对比、IFAM的作用、网络深度影响、多阶段损失函数贡献、以及与Transformer模块的对比。

三、 主要研究结果

  1. 定量结果:在ISAID-Dark数据集上,DFFN取得了最佳的PSNR(25.30 dB)、SSIM(0.784)和LPIPS(0.151)结果,显著优于其他对比方法。特别是在使用LOL预训练模型直接测试ISAID-Dark时,DFFN也表现出较强的跨数据集泛化能力(PSNR 15.51 dB,优于多数对比方法)。在真实数据集DarkRS及其他无参考数据集上,DFFN的NIQE分数最低,表明其增强结果具有最佳的自然视觉质量。尽管DFFN的参数数量(2.58M)和计算量(501 GFLOPs)并非最低,但在性能与复杂度之间取得了优异的平衡,其性能远超参数极少的无参考方法(如Zero-DCE++),同时计算效率远高于性能相近但参数量巨大(40.1M)的SNR(基于Transformer)等方法。

  2. 定性结果(可视化)

    • 在ISAID-Dark上,DFFN能有效恢复图像亮度、抑制噪声并保持色彩自然,其颜色分布直方图最接近真实图像(GT)。而其他方法或存在严重噪声残留(Zero-DCE++, SCI),或出现颜色失真、细节模糊。
    • 在真实夜间数据集DarkRS上,DFFN能均衡地提升整体亮度,保持高对比度和自然色彩,避免了其他方法存在的局部过曝、亮度提升不足或颜色失真等问题。
    • 在高分辨率(1080p)图像上,DFFN依然保持出色的细节恢复能力和视觉质量,而部分方法因计算负载无法处理或效果不佳。
    • 在通用数据集LOL、DICM、NPE上,DFFN同样表现出色,证明了其良好的泛化性。
    • 在模拟的不同黑暗和噪声程度的图像上,DFFN在三种恶劣程度下均能保持稳定的增强效果,而其他方法在极端条件下性能下降明显。
  3. 消融实验结果

    • 两阶段架构:使用两阶段网络(MC, MD)比单阶段网络(MA, MB)性能有显著提升,验证了将任务分解为亮度恢复和细节精炼的有效性。保留低光照图像相位作为第二阶段输入(MD)比直接使用第一阶段输出(MC)效果更好,证明了相位一致性约束的重要性。
    • 双域融合:并行融合空间与频率域信息(M4)优于串行融合(M2, M3)。移除DDAB/DDPB模块(M5)或IFAM模块会导致性能显著下降,证明了这两个核心设计的必要性。
    • 网络深度:当初始通道数C=20时,网络在性能与效率上达到最佳平衡。C=10时网络太浅,拟合能力不足;C=30时网络过深,可能过拟合且参数量大。
    • 损失函数:同时使用空间域和频率域的多层次损失函数,能加速模型收敛并获得最佳性能。缺少任何一部分监督都会导致性能下降。
    • 与Transformer对比:将DFFN中的频率域分支替换为不同配置的Transformer块(STB, MTB)后,模型性能均下降,且参数量和计算量大幅增加,验证了所提傅里叶域方法在效率和效果上的优势。

四、 研究结论与价值

本研究成功提出了一种用于低光照遥感图像增强的空频双域特征融合网络(DFFN)。其主要贡献与价值体现在:

  1. 方法创新:提出了一种新颖的两阶段网络架构,通过傅里叶变换将复杂的低光照退化问题解耦为振幅(光照)恢复和相位(细节)精炼两个相对简单的子任务,并设计了对应的DDAB和DDPB模块来高效融合空间与频率域信息。所提出的IFAM模块有效促进了跨阶段、跨尺度的特征交互,增强了模型的上下文表征能力。
  2. 性能卓越:大量实验表明,DFFN在合成与真实低光照遥感图像数据集上,在客观指标和主观视觉质量上均优于现有的先进方法,同时在模型复杂度与性能之间取得了良好权衡。
  3. 资源贡献:构建并开源了大规模成对的低光照遥感图像合成数据集ISAID-Dark和真实夜间遥感测试集DarkRS,为低光照遥感图像增强领域的研究提供了重要的数据基础,有望推动该方向的发展。
  4. 理论启示:研究通过实验验证了傅里叶域中振幅与相位在图像信息承载上的不同作用(振幅主光照、相位主细节),并为利用频率域先验知识解决视觉任务提供了新的思路和有效方案。

五、 研究亮点

  1. 问题分解与双域融合:创造性地利用傅里叶变换的特性,将低光照增强任务分解为两个有明确物理意义的子任务(调亮度、修细节),并设计并行双域处理模块,同时利用CNN的局部建模能力和傅里叶变换的全局建模能力。
  2. 高效的长程依赖建模:避免了Transformer的二次计算复杂度,利用傅里叶变换以较低计算代价建立图像全局关联,特别适合处理具有广泛长程相关性的高分辨率遥感图像。
  3. 精细化的信息交互机制:提出的IFAM模块超越了简单的特征传递,实现了多阶段、多尺度、跨域特征的动态自适应融合,显著缓解了多阶段网络的信息损失问题。
  4. 领域专用数据集:针对遥感图像特性构建了大规模、多退化程度的成对数据集,填补了该领域的数据空白,且数据生成方法具有参考价值。

六、 局限性及未来工作

作者也指出了本方法的局限性:1)网络中大量的FFT/IFFT操作在一定程度上降低了推理速度;2)在噪声极其严重的环境下,DFN难以完全去除所有噪声,这也是当前主流LLIE方法面临的共同挑战。未来的工作将侧重于在极端低光照环境下的去噪问题,并同时提升模型的推理速度,以更好地应用于实际场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com