这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
该研究的主要作者包括Linhao Qu、Shaolei Liu、Manning Wang、Shiman Li、Siqi Yin和Zhijian Song,他们均来自复旦大学基础医学院数字医学研究中心。该研究发表于2024年的期刊Expert Systems with Applications,文章编号为236卷121363号。
研究的主要科学领域是图像融合(Image Fusion),旨在通过整合多源图像的互补信息来提升单一图像的质量。当前的端到端融合方法常因任务特定训练数据不足而面临过拟合或复杂参数调优的问题。两阶段方法虽然通过在大规模自然图像数据集上训练编码器-解码器网络来缓解这一问题,但由于领域差异,性能仍然有限。因此,本研究提出了一种新颖的编码器-解码器融合框架,并引入了一种基于破坏-重建的自监督学习方案,以增强网络的任务特定特征学习能力。
框架设计
研究提出了一种名为Trans2Fuse的两阶段图像融合框架。该框架的核心创新在于结合了卷积神经网络(CNN)和Transformer的编码器,以同时提取图像的局部和全局特征。框架分为两个阶段:
自监督学习任务
为了增强网络的任务特定特征学习能力,研究设计了三种辅助任务:
编码器设计
编码器结合了CNN和Transformer模块,分别用于提取局部和全局特征。此外,研究还引入了全局Transformer和细粒度Transformer,以处理不同尺度的信息,促进它们之间的有效交互。
融合规则
对于多曝光和多焦点融合任务,研究直接对源图像的特征图进行平均融合。对于多模态融合,采用L1范数融合规则,以突出并保留关键特征信息。
实验与评估
研究在四个基准数据集上对11种传统和深度学习融合方法进行了严格的评估,包括红外-可见光融合、医学图像融合、多曝光融合和多焦点融合。评估指标涵盖信息论、图像特征、结构相似性和人类感知等多个方面。
统一图像融合框架
与现有的统一图像融合算法(如U2Fusion、IFCNN、PMGI和WaveSSL)相比,Trans2Fuse在几乎所有评估指标上均表现出色,特别是在红外-可见光融合、医学图像融合、多曝光融合和多焦点融合任务中均取得了最佳性能。
多模态图像融合
在红外-可见光融合任务中,Trans2Fuse在多个指标上表现优异,特别是在保留关键目标和细节信息方面显著优于其他方法。在医学图像融合任务中,Trans2Fuse在六个指标上取得了最佳性能,显示出其在保留纹理和功能信息方面的优势。
多曝光和多焦点融合
在多曝光融合任务中,Trans2Fuse在五个指标上表现最佳,融合图像保持了最佳的亮度和细节。在多焦点融合任务中,Trans2Fuse在六个指标上取得了最佳性能,显示出其在保留清晰细节信息方面的优势。
Trans2Fuse框架通过结合CNN和Transformer的编码器设计以及基于破坏-重建的自监督学习任务,显著提升了图像融合的性能。该框架不仅在多个融合任务中表现出色,还展示了对任务特定特征的有效学习能力。研究的创新之处在于提出了三种任务特定的自监督学习任务,并通过概率组合策略增强了网络的泛化能力。
研究还公开了代码、数据集和融合图像,为后续研究提供了宝贵的资源。此外,研究还通过消融实验验证了TransBlock模块和任务特定自监督学习任务的有效性,进一步增强了研究的可信度。
通过这项研究,Trans2Fuse不仅为图像融合领域提供了新的解决方案,还为自监督学习和Transformer在计算机视觉中的应用开辟了新的方向。