分享自:

通过自监督学习和多模态变换的Transformer网络增强图像融合

期刊:Expert Systems with ApplicationsDOI:10.1016/j.eswa.2023.121363

这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

主要作者与机构

该研究的主要作者包括Linhao Qu、Shaolei Liu、Manning Wang、Shiman Li、Siqi Yin和Zhijian Song,他们均来自复旦大学基础医学院数字医学研究中心。该研究发表于2024年的期刊Expert Systems with Applications,文章编号为236卷121363号。

学术背景

研究的主要科学领域是图像融合(Image Fusion),旨在通过整合多源图像的互补信息来提升单一图像的质量。当前的端到端融合方法常因任务特定训练数据不足而面临过拟合或复杂参数调优的问题。两阶段方法虽然通过在大规模自然图像数据集上训练编码器-解码器网络来缓解这一问题,但由于领域差异,性能仍然有限。因此,本研究提出了一种新颖的编码器-解码器融合框架,并引入了一种基于破坏-重建的自监督学习方案,以增强网络的任务特定特征学习能力。

研究流程

  1. 框架设计
    研究提出了一种名为Trans2Fuse的两阶段图像融合框架。该框架的核心创新在于结合了卷积神经网络(CNN)和Transformer的编码器,以同时提取图像的局部和全局特征。框架分为两个阶段:

    • 第一阶段:在大规模自然图像数据集上训练编码器-解码器网络,通过破坏-重建任务进行自监督学习。
    • 第二阶段:使用训练好的编码器提取源图像的特征图,通过融合块生成融合图像。
  2. 自监督学习任务
    为了增强网络的任务特定特征学习能力,研究设计了三种辅助任务:

    • 像素强度非线性变换(Pixel Intensity Non-linear Transformation):用于多模态融合。
    • 亮度变换(Brightness Transformation):用于多曝光融合。
    • 噪声变换(Noise Transformation):用于多焦点融合。
      在训练过程中,随机选择一种任务进行图像破坏,迫使网络学习如何重建原始图像,从而增强其泛化能力。
  3. 编码器设计
    编码器结合了CNN和Transformer模块,分别用于提取局部和全局特征。此外,研究还引入了全局Transformer和细粒度Transformer,以处理不同尺度的信息,促进它们之间的有效交互。

  4. 融合规则
    对于多曝光和多焦点融合任务,研究直接对源图像的特征图进行平均融合。对于多模态融合,采用L1范数融合规则,以突出并保留关键特征信息。

  5. 实验与评估
    研究在四个基准数据集上对11种传统和深度学习融合方法进行了严格的评估,包括红外-可见光融合、医学图像融合、多曝光融合和多焦点融合。评估指标涵盖信息论、图像特征、结构相似性和人类感知等多个方面。

主要结果

  1. 统一图像融合框架
    与现有的统一图像融合算法(如U2Fusion、IFCNN、PMGI和WaveSSL)相比,Trans2Fuse在几乎所有评估指标上均表现出色,特别是在红外-可见光融合、医学图像融合、多曝光融合和多焦点融合任务中均取得了最佳性能。

  2. 多模态图像融合
    在红外-可见光融合任务中,Trans2Fuse在多个指标上表现优异,特别是在保留关键目标和细节信息方面显著优于其他方法。在医学图像融合任务中,Trans2Fuse在六个指标上取得了最佳性能,显示出其在保留纹理和功能信息方面的优势。

  3. 多曝光和多焦点融合
    在多曝光融合任务中,Trans2Fuse在五个指标上表现最佳,融合图像保持了最佳的亮度和细节。在多焦点融合任务中,Trans2Fuse在六个指标上取得了最佳性能,显示出其在保留清晰细节信息方面的优势。

结论

Trans2Fuse框架通过结合CNN和Transformer的编码器设计以及基于破坏-重建的自监督学习任务,显著提升了图像融合的性能。该框架不仅在多个融合任务中表现出色,还展示了对任务特定特征的有效学习能力。研究的创新之处在于提出了三种任务特定的自监督学习任务,并通过概率组合策略增强了网络的泛化能力。

研究亮点

  1. 创新框架:Trans2Fuse是首个结合CNN和Transformer的编码器-解码器框架,能够同时提取局部和全局特征。
  2. 自监督学习任务:通过像素强度非线性变换、亮度变换和噪声变换,网络能够有效学习任务特定特征。
  3. 多任务融合:通过随机选择辅助任务进行训练,网络能够在不同融合任务之间相互增强,提升整体性能。
  4. 广泛实验验证:研究在四个基准数据集上对11种方法进行了全面评估,证明了Trans2Fuse的优越性。

其他有价值的内容

研究还公开了代码、数据集和融合图像,为后续研究提供了宝贵的资源。此外,研究还通过消融实验验证了TransBlock模块和任务特定自监督学习任务的有效性,进一步增强了研究的可信度。

通过这项研究,Trans2Fuse不仅为图像融合领域提供了新的解决方案,还为自监督学习和Transformer在计算机视觉中的应用开辟了新的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com