基于信息感知的Transformer展开网络促进高光谱和多光谱图像融合

基于信息感知的Transformer展开网络促进高光谱和多光谱图像融合

背景介绍

高光谱图像(Hyperspectral Image, HSI)由于其包含多个波段的光谱信息,在材料识别、图像分类、目标检测和环境监测等遥感应用中发挥着重要作用。然而,由于传感器硬件的限制,实际的成像过程中存在空间分辨率和光谱分辨率之间的权衡问题。具体来说,成像传感器只能提供丰富光谱信息的图像(低分辨率的HSI,LR-HSI),或者是高空间分辨率但光谱信息较少的图像(高分辨率的多光谱图像,HR-MSI)。为了获得高分辨率的HSI(HR-HSI),研究者们提出了将LR-HSI和HR-MSI融合的方法,称为MSI-HSI融合。MSI-HSI融合在遥感图像处理中引起了广泛关注。

ITU-Net的结构

论文来源

这篇论文《Advancing Hyperspectral and Multispectral Image Fusion: An Information-aware Transformer-based Unfolding Network》发表于IEE Transactions on Neural Networks and Learning Systems,由西安电子科技大学的Jianqiao Sun, Bo Chen, Ruiying Lu, Ziheng Cheng, Chunhui Qu和西湖大学的Xin Yuan撰写。该论文收稿时间为2023年6月20日,修改时间为2024年1月18日,接受时间为2024年5月1日。

研究流程

研究流程详述

在高光谱图像处理的研究中,基于卷积神经网络(CNN)的深度展开方法展现了较为优秀的表现。然而,由于CNN的有限感受野,导致其在捕捉长距离空间特征上存在局限性。此外,每个阶段输入和输出图像的固有特性限制了特征传递,从而限制了整体性能。针对这一问题,本文提出了一种新型的信息感知的基于Transformer的展开网络(ITU-Net),用于建模长距离依赖,并在各阶段传递更多信息。具体来说,ITU-Net采用了定制的Transformer块,既从空间域也从频域学习表征,同时避免了输入长度平方复杂度。为了提取空间特征,本文开发了信息传输指导线性注意力(ITLA),在相邻阶段之间传输高通量信息,并在线性复杂度下沿空间维度提取上下文特征。此外,本文还在前馈网络(FFN)中引入了频域学习,以捕获图像的Token变化并缩小频率差距。

实验设计

研究对象为合成和真实的高光谱数据集。实验包括以下步骤:

  1. 数据集选择与预处理: 选择CAVE、Chikusei和Harvard三个合成数据集以及Worldview-3和Worldview-2两个真实数据集。对合成数据进行预处理,生成训练和验证样本。

  2. 特征提取与模型训练: 使用轻量化网络从LR-HSI和HR-MSI中提取空间-光谱外部特征,为每个展开阶段提供输入。采用频域学习模块替代常规的FFN,导入离散傅里叶变换(DFT)和离散余弦变换(DCT),以改进非线性映射能力。设计优化问题,并使用变量分裂算法展开重建过程,将其转化为网络结构,实现HR-HSI的逐步细化重建。

  3. 性能评估: 通过大量实验,在合成和真实数据集上对所提模型进行定量和定性评估,并与17种最先进的方法进行比较。

研究结果

通过与其他方法的比较,本文模型在多个数据集中表现出色,具体如下:

  1. 合成数据集: 在CAVE和Chikusei数据集上,该方法在不同尺度因子下(4, 8, 16, 32)均表现出最佳或最具竞争力的性能。在Harvard数据集中,该模型在未经微调的情况下直接使用CAVE数据集的训练模型表现出良好的泛化能力。

  2. 真实数据集: 在Worldview-3和Worldview-2数据集上,ITU-Net的表现也优于其他领先的方法。

主要发现和结论

研究结论

本文提出的信息感知的基于Transformer的展开网络(ITU-Net)通过从空间域和频域提取特征,并在各阶段传递高通量信息,有效地解决了HSI和MSI融合中的长距离依赖建模和特征传递问题。通过实验验证,所提方法在合成和真实数据集上均表现出较优的定量和定性性能。研究结果表明,基于Transformer的展开框架不仅在高光谱和多光谱图像融合中展现出优越的性能,同时也为实际的遥感应用提供了有意义的技术支持。

研究价值

本文所提出的方法不仅在高光谱和多光谱图像融合任务中表现出色,并且展示了其优秀的泛化能力。特别是,本文利用Transformer块结合展开框架,大幅度提高了特征提取和信息传递的效率和准确性。这一新颖的方法为遥感图像处理提供了新的思路和方法,具有重要的科学和应用价值。

亮点

  1. 新颖性: 引入了信息感知的线性注意力机制,既保留传统的定量特征,又显著提升计算效率。
  2. 实用性: 在合成和真实数据集上的实验均表现出优异性能,验证了所提方法的广泛适应性和通用性。
  3. 技术创新: 使用频域学习模块改进了FFN性能,结合Transformer和展开框架,实现了更高精度和更低的计算复杂度。