分享自:

结合Transformer与CNN的多焦点图像融合方法

期刊:expert systems with applicationsDOI:10.1016/j.eswa.2023.121156

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于Transformer与CNN结合的多焦点图像融合方法研究

作者及机构
本研究由Chongqing University(重庆大学)计算机科学学院的Zhao Duan、Xiaoliu Luo和Taiping Zhang(通讯作者)合作完成,发表于2024年的*Expert Systems with Applications*期刊(卷235,文章编号121156)。

学术背景
多焦点图像融合(Multi-focus Image Fusion, MFIF)是计算机视觉领域的重要课题,旨在通过融合同一场景下不同焦点的多幅图像生成全聚焦图像。传统方法依赖手工设计特征(如梯度、纹理强度),而基于卷积神经网络(CNN)的方法虽能提取局部特征,但受限于局部滑动窗口机制,难以捕捉全局上下文信息,导致融合结果在平滑区域和焦点边缘区域出现空间不连续性问题。
本研究的目标是提出一种结合Transformer与CNN的端到端架构,利用Transformer的全局特征提取能力解决上述问题,并通过在线知识蒸馏策略(Online Knowledge Distillation Learning, KDL)增强两类特征的交互,提升分类精度。

研究流程与方法
1. 网络架构设计
- 编码器-解码器结构:编码器包含并行全局分支(Transformer)和局部分支(CNN)。
- 全局分支:将特征图分块输入Transformer,通过自注意力机制(Self-attention)捕获块间全局上下文。具体采用PVT(Pyramid Vision Transformer)模型,包含3层Transformer,每层通过多头自注意力模块(MSA)和前馈模块(FFM)生成全局特征图。
- 局部分支:由3×3卷积层、ReLU激活和平均池化层构成,提取局部细节特征。
- 特征融合:将两类特征拼接后通过卷积块生成强表征特征图。

  1. 在线知识蒸馏策略

    • 将CNN与Transformer分支视为两个学生模型,分别通过硬目标(真实标签)和软目标(两分支输出的平均值)监督训练。
    • 损失函数设计:结合交叉熵损失(ce)和KL散度(kl),总损失为=kdl+f,其中kdl促进分支间知识迁移。
  2. 实验验证

    • 数据集:使用17,000对合成多焦点图像(基于PASCAL VOC 2012)训练,并在Lytro、MFFW和MFI-WHU数据集上测试。
    • 对比方法:包括传统方法(如NSCT-SR、DSIFT)和深度学习方法(如DCNN、GACN)。
    • 评估指标:采用QNMI、QAB/F、VIFF等6项指标,综合衡量信息保留、边缘一致性和视觉保真度。

主要结果
1. 定性分析
- 在边缘和平滑区域(如“心脏”图像),本文方法生成的差异图像残差显著少于对比方法(如GFF、DCNN),表明其能更准确分类焦点与散焦像素。
- 决策图显示,传统CNN方法(如ECNN)存在边缘锯齿,而本文方法通过全局上下文建模获得连续边界。

  1. 定量分析
    • 在27对测试图像上,本文方法在QNMI(1.1751±0.1125)、QAB/F(0.7611±0.0347)等4项指标中排名第一,MSSIM(0.9785±0.0130)排名第三。
    • 消融实验证实:移除Transformer分支(-tf)导致QAB/F下降0.0052,移除KDL策略(-kdl)降低特征交互效果。

结论与价值
1. 科学价值
- 首次将Transformer引入多焦点图像融合任务,验证了全局上下文建模对提升分类精度的有效性。
- 提出的在线知识蒸馏策略为多模态特征交互提供了新思路。

  1. 应用价值
    • 无需后处理即可生成空间连续的融合图像,适用于摄影增强、医学成像等领域。
    • 代码开源且运行时仅0.89秒/图像(520×520分辨率),具备工程落地潜力。

研究亮点
1. 方法创新
- 混合架构结合CNN的局部细节与Transformer的全局一致性,克服传统方法的局限性。
- 知识蒸馏策略实现特征互补,CNN分支的局部细节反向增强Transformer的局部敏感性。

  1. 性能优势
    • 在MFI-WHU等复杂数据集上,融合结果在主观视觉和客观指标上均优于12种对比方法。

其他有价值内容
- 作者指出未来方向:针对噪声图像的鲁棒性改进,以及向红外-可见光融合等任务的扩展。


此报告全面覆盖了研究的背景、方法、结果与价值,重点突出了Transformer与知识蒸馏的创新性应用,并通过实验数据支撑其有效性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com