结合Transformer与CNN的多焦点图像融合方法

分享自：
结合Transformer与CNN的多焦点图像融合方法

期刊:expert systems with applicationsDOI:10.1016/j.eswa.2023.121156
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
基于Transformer与CNN结合的多焦点图像融合方法研究
作者及机构
 本研究由Chongqing University（重庆大学）计算机科学学院的Zhao Duan、Xiaoliu Luo和Taiping Zhang（通讯作者）合作完成，发表于2024年的*Expert Systems with Applications*期刊（卷235，文章编号121156）。
学术背景
 多焦点图像融合（Multi-focus Image Fusion, MFIF）是计算机视觉领域的重要课题，旨在通过融合同一场景下不同焦点的多幅图像生成全聚焦图像。传统方法依赖手工设计特征（如梯度、纹理强度），而基于卷积神经网络（CNN）的方法虽能提取局部特征，但受限于局部滑动窗口机制，难以捕捉全局上下文信息，导致融合结果在平滑区域和焦点边缘区域出现空间不连续性问题。
 本研究的目标是提出一种结合Transformer与CNN的端到端架构，利用Transformer的全局特征提取能力解决上述问题，并通过在线知识蒸馏策略（Online Knowledge Distillation Learning, KDL）增强两类特征的交互，提升分类精度。
研究流程与方法
 1. 网络架构设计
 - 编码器-解码器结构：编码器包含并行全局分支（Transformer）和局部分支（CNN）。
 - 全局分支：将特征图分块输入Transformer，通过自注意力机制（Self-attention）捕获块间全局上下文。具体采用PVT（Pyramid Vision Transformer）模型，包含3层Transformer，每层通过多头自注意力模块（MSA）和前馈模块（FFM）生成全局特征图。
 - 局部分支：由3×3卷积层、ReLU激活和平均池化层构成，提取局部细节特征。
 - 特征融合：将两类特征拼接后通过卷积块生成强表征特征图。
在线知识蒸馏策略
将CNN与Transformer分支视为两个学生模型，分别通过硬目标（真实标签）和软目标（两分支输出的平均值）监督训练。
 
损失函数设计：结合交叉熵损失（ce）和KL散度（kl），总损失为=kdl+f，其中kdl促进分支间知识迁移。
 
实验验证
数据集：使用17,000对合成多焦点图像（基于PASCAL VOC 2012）训练，并在Lytro、MFFW和MFI-WHU数据集上测试。
 
对比方法：包括传统方法（如NSCT-SR、DSIFT）和深度学习方法（如DCNN、GACN）。
 
评估指标：采用QNMI、QAB/F、VIFF等6项指标，综合衡量信息保留、边缘一致性和视觉保真度。
 
主要结果
 1. 定性分析
 - 在边缘和平滑区域（如“心脏”图像），本文方法生成的差异图像残差显著少于对比方法（如GFF、DCNN），表明其能更准确分类焦点与散焦像素。
 - 决策图显示，传统CNN方法（如ECNN）存在边缘锯齿，而本文方法通过全局上下文建模获得连续边界。
定量分析
 在27对测试图像上，本文方法在QNMI（1.1751±0.1125）、QAB/F（0.7611±0.0347）等4项指标中排名第一，MSSIM（0.9785±0.0130）排名第三。
 
消融实验证实：移除Transformer分支（-tf）导致QAB/F下降0.0052，移除KDL策略（-kdl）降低特征交互效果。
 
结论与价值
 1. 科学价值
 - 首次将Transformer引入多焦点图像融合任务，验证了全局上下文建模对提升分类精度的有效性。
 - 提出的在线知识蒸馏策略为多模态特征交互提供了新思路。
应用价值
 无需后处理即可生成空间连续的融合图像，适用于摄影增强、医学成像等领域。
 
代码开源且运行时仅0.89秒/图像（520×520分辨率），具备工程落地潜力。
 
研究亮点
 1. 方法创新：
 - 混合架构结合CNN的局部细节与Transformer的全局一致性，克服传统方法的局限性。
 - 知识蒸馏策略实现特征互补，CNN分支的局部细节反向增强Transformer的局部敏感性。
性能优势：
 在MFI-WHU等复杂数据集上，融合结果在主观视觉和客观指标上均优于12种对比方法。
 
其他有价值内容
 - 作者指出未来方向：针对噪声图像的鲁棒性改进，以及向红外-可见光融合等任务的扩展。
此报告全面覆盖了研究的背景、方法、结果与价值，重点突出了Transformer与知识蒸馏的创新性应用，并通过实验数据支撑其有效性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问