关于“频率整合与空间补偿网络用于红外与可见光图像融合”研究的学术报告
一、 研究作者、机构与发表信息
本研究的主要作者包括:Naishan Zheng, Man Zhou, Jie Huang, Feng Zhao(通讯作者)。所有作者均来自中国科学技术大学信息科学技术学院。该研究成果以题为“Frequency integration and spatial compensation network for infrared and visible image fusion”的完整文章形式,发表于Elsevier旗下的学术期刊《Information Fusion》第109卷(2024年),文章识别号为102359。文章于2023年10月25日收到,2024年3月14日被接受,并于2024年3月18日在线发布。
二、 研究的学术背景与目标
本研究隶属于计算机视觉与信息融合领域,具体聚焦于红外与可见光图像融合(Infrared and Visible Image Fusion, IVIF)这一关键任务。由于单一成像传感器受硬件限制和拍摄环境影响,其捕获的图像往往信息不全面。红外图像能够捕捉目标的热辐射信息,在低光照或恶劣环境下能有效突出如车辆、行人等重要目标,但缺乏丰富的纹理细节。相反,可见光图像富含符合人眼视觉感知的纹理和细节,但在上述挑战性环境中可能无法清晰呈现目标。因此,红外与可见光图像融合技术旨在生成一幅合成图像,它既能突出红外图像中的显著目标,又能保留可见光图像的精细纹理和视觉质量,从而提升图像在军事监控、目标检测等下游应用中的效用。
现有的基于深度学习的融合方法主要集中于在空间域进行操作,即直接处理图像的像素值。然而,这些方法普遍忽视了频域中蕴含的宝贵信息。傅里叶变换等频域分析工具能够将图像分解为幅度(Amplitude)和相位(Phase)分量。已有研究表明,相位分量编码了图像的主要结构和语义内容,而幅度分量则更多地与风格、光照信息相关。本研究团队通过对红外与可见光图像对进行傅里叶变换分析,观察到一个关键现象:直接整合两幅源图像的相位分量,并结合可见光图像的幅度分量进行重构,能够有效生成一幅既包含红外图像显著目标、又保持可见光图像视觉感知的融合图像。这一观察为在频域进行图像融合提供了新的思路。
基于此,本研究的目标是提出一种新颖的、能够同时利用空间域和频域信息的深度学习框架,以解决现有方法对频域信息利用不足的问题。具体而言,研究旨在设计一个网络,能够有效地在频域整合源图像的互补信息(特别是通过相位整合来突出显著目标),同时在空间域对融合结果进行细节补偿和增强,最终实现优于现有先进方法的融合性能,在显著目标保持和纹理保真度方面达到新的高度。
三、 研究的详细工作流程与方法
本研究提出了一种名为“频率整合与空间补偿网络”(Frequency Integration and Spatial Compensation Network, FISCNet)的全新架构。整个工作流程可以概括为以下几个核心步骤:
1. 数据预处理与特征提取: 研究采用YCrCb色彩空间处理可见光图像。首先,将三通道的可见光RGB图像转换到YCrCb空间,并分离出亮度(Y)通道用于融合,而色度(Cb和Cr)通道则保留至最终融合阶段。对于单通道的红外图像和分离出的可见光Y通道图像,网络分别使用多个级联的卷积层进行独立处理,将其投影为浅层特征表示,记作 (F_v)(可见光特征)和 (F_r)(红外特征)。这些特征作为后续核心模块的输入。
2. 核心融合模块:频率整合模块与空间补偿模块的迭代: 这是FISCNet的核心创新部分。网络通过N次(默认N=3)迭代的“频率整合模块”(Frequency Integration Module, FIM)和“空间补偿模块”(Spatial Compensation Module, SCM)来逐步整合和优化特征。 * 频率整合模块(FIM): 该模块在频域进行操作,旨在整合显著目标并保持视觉感知。 1. 傅里叶变换与分量分离: 对输入的特征 (F_v) 和 (F_r) 分别进行快速傅里叶变换(FFT),得到各自的幅度谱 (A_v, A_r) 和相位谱 (P_v, P_r)。 2. 相位整合与幅度保留: 核心操作是直接将两幅源图像的相位谱相加,实现相位信息的整合。为了保持可见光图像的视觉风格(由幅度谱主要决定),将整合后的相位谱与可见光特征的幅度谱 (A_v) 相结合,通过三角函数运算生成融合特征在频域的实部和虚部。 3. 逆变换与特征生成: 对生成的频域表示进行逆快速傅里叶变换(IFFT),并通过一个卷积层进行细化,得到初步的融合特征 (F_f)。同时,红外和可见光的原始特征 (F_r) 和 (F_v) 也通过独立的卷积操作在频域进行处理后转换回空间域,以供下一模块使用。 4. 动机验证: 该模块的设计直接源于研究背景中的观察。可视化分析表明,FIM输出的融合特征 (F_f) 能够有效地集成并突出源图像中的显著物体。
3. 图像重建与后处理: 经过N次迭代后,最终得到的融合特征 (F_f) 通过一个卷积层重建为融合后的Y通道图像 (I_f^Y)。随后,将 (I_f^Y) 与最初从可见光图像中保留的Cb、Cr通道合并,形成YCrCb空间的融合图像,最后转换回RGB空间得到最终的融合结果 (I_f)。
4. 损失函数设计: 由于图像融合任务缺乏真实的“地面真值”(Ground Truth)作为监督信号,研究采用无监督学习方式,设计损失函数来引导网络训练。总损失函数由两部分组成: * 强度损失(Intensity Loss): 基于显著性的损失函数,旨在保留红外和可见光图像中的显著物体。它计算源图像根据其显著图加权的组合与融合图像之间的L1范数距离。 * 梯度损失(Gradient Loss): 旨在保留源图像中的详细纹理信息。它计算融合图像的梯度与两幅源图像梯度中逐元素最大值之间的L1范数距离。 总损失为两者加权和,其中梯度损失的权重系数λ设为5。
5. 实验配置与评估: * 数据集与训练: 使用M3FD数据集的500对图像进行训练,图像块随机裁剪为128x128。在M3FD测试集、RoadScene和TNO数据集上评估模型的泛化能力。 * 对比方法: 与11种先进方法进行比较,涵盖基于分解的方法(DIDFuse, AUIF)、基于GAN的方法(DDcGAN, UMFusion, TarDAL)和基于CNN的方法(U2Fusion, DenseFuse, ReCoNet, SDNet, SuperFusion, PSFusion)。 * 评估指标: 采用6种全参考和无参考图像质量评估指标:熵(EN)、空间频率(SF)、互信息(MI)、视觉信息保真度(VIF)、平均梯度(AG)和边缘保留度 (Q^{ABF})。数值越高代表融合性能越好。 * 下游任务验证: 额外使用FCOS目标检测模型在M3FD数据集上测试各融合方法结果对下游物体检测性能的提升,以平均精度均值(mAP)作为评估指标。 * 效率分析: 对比了各方法的模型参数量、浮点运算次数(FLOPs)和单张图像融合耗时。
四、 研究的主要结果
本研究通过详尽的定性与定量实验,全面验证了FISCNet的有效性。
1. 定性结果: 在M3FD、RoadScene和TNO三个基准数据集上的视觉对比表明,FISCNet生成的融合图像在显著目标突出和纹理细节保留之间取得了卓越的平衡。例如,在M3FD数据集中,FISCNet能清晰地突出红外图像中的行人(显著目标),同时完好地保留了可见光图像中复杂的背景纹理(如树叶、建筑细节)。而一些对比方法要么削弱了显著目标(如DenseFuse, ReCoNet),要么损失了纹理导致边缘模糊(如DDcGAN, ReCoNet),要么未能充分融入红外信息导致目标不够明显(如UMFusion)。
2. 定量结果: 在三个测试集上的六项指标综合评价中,FISCNet在绝大多数指标上均取得了最佳或接近最佳的性能。特别是在衡量信息传递量的MI指标和衡量边缘信息保留的 (Q^{ABF}) 指标上,FISCNet表现突出。例如,在M3FD测试集上,FISCNet的MI和 (Q^{ABF}) 值均领先于其他方法,这直接证明了其频域整合策略能有效传递源图像的互补信息,且空间补偿机制能很好地保留边缘和纹理。在RoadScene和TNO数据集上的优异表现也证明了其良好的泛化能力。
3. 下游任务性能: 在基于M3FD融合图像的目标检测实验中,FISCNet取得了所有非语义辅助融合方法中最高的mAP(0.498),甚至超过了部分专门为下游任务设计的方法(如ReCoNet的0.479)。这证明了FISCNet生成的融合图像不仅视觉质量高,而且有利于提升高级视觉任务的性能。
4. 效率分析: FISCNet在模型参数量(0.324M)、计算量(9.256G FLOPs)和运行时间(0.034秒/对图像)上均表现出色,实现了高性能与高效率的兼顾。这得益于其频域整合操作的高效性以及与融合任务本质的良好契合。
5. 消融研究结果: * 频率整合模块(FIM)的重要性: 移除FIM后(仅空间域融合),融合图像中显著目标的强度明显减弱,关键特征丢失,且所有定量指标均大幅下降。用其他高性能空间域融合模块(如SDFM)替换FIM后,性能仍不及原版FISCNet。这证实了在频域进行相位整合对于突出显著目标是关键且有效的。 * 空间补偿模块(SCM)的重要性: 移除SCM后,融合图像虽然能突出目标,但纹理细节粗糙,缺乏可见光图像的精细感。定量指标(如AG、SF)也相应下降。这证明了SCM对于丰富纹理细节不可或缺。 * 迭代次数的影响: 实验表明,随着迭代次数N从1增加到3,性能持续显著提升;当N=4时,性能趋于稳定。因此选择N=3作为默认值,在性能和计算成本间取得平衡。 * 收敛性分析: 通过绘制训练过程中测试集MI指标的变化曲线,发现FISCNet比将FIM替换为SDFM的变体收敛更快且更稳定。这表明FIM所体现的、与IVIF任务本质(相位整合保留视觉)相符的显式融合先验,有助于网络更快、更稳健地学习。
五、 研究的结论与价值
本研究得出结论:通过深入分析红外与可见光图像在频域的特性,并基于“相位整合可有效融合显著目标”这一关键观察,所提出的频率整合与空间补偿网络(FISCNet)能够成功地在频域整合互补信息,同时在空间域补偿纹理细节。该网络在多个公开数据集上,在主观视觉质量和客观评价指标上均超越了现有的先进方法,同时在模型效率和对下游目标检测任务的助力方面也表现出色。
研究的价值体现在: * 科学价值: 为红外与可见光图像融合领域提供了一个新的研究视角,即系统地探索并利用频域信息(特别是相位分量)来完成融合任务。它突破了现有深度学习模型主要集中于空间域设计的局限,证明了频域分析与空间域处理相结合的有效性。 * 方法论价值: 提出的FIM和SCM模块设计精巧,FIM提供了符合任务物理意义的显式融合引导,SCM则通过差异感知机制自适应地补充细节。这种双域协同、迭代优化的框架为相关图像处理任务提供了可借鉴的架构思路。 * 应用价值: FISCNet生成的融合图像质量高,能同时满足人眼观察和机器分析的需求,可直接应用于夜视监控、自动驾驶、遥感侦查等实际场景,提升系统在复杂环境下的感知能力。
六、 研究的亮点
七、 其他有价值的内容
本研究在论文中提供了详细的傅里叶变换背景分析(图1),直观展示了相位和幅度分量的作用,以及直接整合相位带来的效果,这为理解方法动机提供了坚实基础。此外,代码已公开在GitHub上(https://github.com/zheng980629/FISCNet),促进了研究的可复现性和后续发展。文章也对相关工作和傅里叶变换在计算机视觉中的应用进行了全面的梳理,体现了研究的深度和广度。