分享自:

基于条带卷积和Swin Transformer的双分支网络在多模态遥感图像配准中的应用

期刊:Remote SensingDOI:10.3390/rs17061071

本文介绍一篇发表在《Remote Sensing》期刊上的原创性研究论文,题为《A Dual-Branch Network of Strip Convolution and Swin Transformer for Multimodal Remote Sensing Image Registration》。该研究由西安理工大学自动化与信息工程学院的Kunpeng Mu、Wenqing Wang(通讯作者)、Han Liu、Lili Liang和Shuang Zhang共同完成,并于2025年3月18日正式发表。研究聚焦于多模态遥感影像的刚性配准问题,提出了一种创新的双分支网络架构,旨在解决现有方法在大尺度刚性变形(如旋转、缩放)配准中的局限性。

学术背景与研究目标

多模态遥感影像配准是遥感图像处理与解译中的核心任务,其目标是通过精确对齐不同传感器获取的图像数据,提升遥感数据的精度与应用价值。不同传感器(如光学、合成孔径雷达SAR、红外等)具有独特的成像机制与特性,多模态影像的融合可充分发挥各传感器的优势。然而,由于传感器视角、环境因素等影响,多模态影像常存在几何形变(如旋转、平移)和辐射差异,传统配准方法(如基于区域或特征的方法)在处理大尺度刚性变形时表现不佳。深度学习虽展现出潜力,但现有方法多依赖双胞胎卷积神经网络(CNNs)或两阶段流程,难以实现端到端的高精度配准。为此,本研究提出了一种结合条带卷积(strip convolution)与Swin Transformer的双分支网络,以应对实际工程中严格的配准需求。

研究方法与流程

研究提出了一种端到端的双分支配准网络,包含三个核心模块:双分支特征提取、仿射参数回归和空间变换网络(STN)。以下为详细流程:

  1. 双分支特征提取模块

    • 上分支:结合多尺度卷积与Swin Transformer,通过多尺度特征提取(MSFE)捕获不同层次的影像特征。MSFE包含上、中、下三个分支,分别进行不同尺度的卷积与残差连接,最终融合多尺度特征。Swin Transformer通过局部窗口自注意力机制建模长程依赖,增强全局结构理解。
    • 下分支:设计条带卷积块(SBM),结合水平、垂直和对角方向的卷积,提取多方向上下文信息。引入通道与空间注意力模块(CA/SA)抑制无关特征干扰,并通过高效轻量级模块(EMO)融合CNN的局部建模与Transformer的全局上下文能力。
    • 特征融合:将上下分支的输出相加,得到兼具全局语义与局部细节的最终特征。
  2. 仿射参数回归模块
    将固定影像与移动影像的特征拼接后输入ResNet34网络,通过全连接层预测6个仿射参数(旋转、平移、缩放)。创新性地采用并行卷积块(PCB),整合不同尺寸卷积核(1×1、3×3、5×5)提取的特征,提升参数回归的鲁棒性。

  3. 空间变换网络(STN)
    将预测的仿射参数应用于移动影像,通过网格生成与采样完成配准。STN直接学习几何变换,无需复杂的中间步骤。

实验设计与结果

研究在三个数据集(Pan-MS、IR-Opt、SAR-Opt)上验证了方法的有效性,涵盖不同模态与大尺度刚性变形场景:
- 数据集
- Pan-MS:高分1号、WorldView-2/4卫星影像,分辨率0.5m(全色)与2m(多光谱),训练1104对,测试148对。
- IR-Opt:成都平原区域影像,分辨率30m,训练1325对,测试200对。
- SAR-Opt:Sen1-2数据集,分辨率5m(SAR)与10m(光学),训练1300对,测试300对。
- 评价指标:重投影误差(RE)、互信息(MI)、归一化互相关系数(NCC)和均方根误差(RMSE)。
- 对比方法:包括传统方法(SIFT、RIFT、TWMM)和深度学习方法(TransMorph、SuperFusion、ADRNet)。

实验结果
- 定量分析显示,本文方法在三个数据集上均取得最优性能。例如,在IR-Opt数据集上,RE(3.5301)、MI(0.7305)和NCC(0.9623)优于ADRNet(RE 3.6888);在SAR-Opt数据集上,RMSE(0.9397)较ADRNet降低22.53%。
- 定性对比(棋盘格可视化)表明,该方法能精准对齐全局与局部区域,尤其在复杂地形和大变形场景中表现稳定。
- 消融实验验证了各模块(Swin Transformer、SBM、PCB等)的贡献,移除任一模块均导致性能显著下降。

结论与价值

本研究提出了一种针对多模态遥感影像刚性配准的双分支网络,其科学价值与应用价值如下:
1. 科学价值
- 创新性地融合了Swin Transformer的全局建模能力与条带卷积的多方向特征提取优势,解决了传统方法在复杂形变下的配准难题。
- 通过端到端训练实现了仿射参数的直接学习,避免了传统流程中特征匹配与参数估计的误差累积。
2. 应用价值
- 为多源遥感数据融合、变化检测等下游任务提供了高精度配准基础,尤其在灾害监测、农业遥感等领域具有工程应用潜力。
- 模型在保持较低参数量(22.15M)的同时实现高效配准(单帧耗时0.227秒),适合实际部署。

研究亮点

  1. 方法创新:首次将Swin Transformer与条带卷积结合,构建双分支特征提取框架,兼顾多尺度与多方向特征。
  2. 技术突破:设计并行卷积块(PCB)提升仿射参数回归的适应性,并通过对称损失函数(Lsymaff)增强配准一致性。
  3. 实验全面性:覆盖Pan-MS、IR-Opt、SAR-Opt三大典型模态,验证了方法的普适性与鲁棒性。

局限与展望

尽管成果显著,研究仍存在以下局限:Swin Transformer对大规模影像的长程依赖建模不足,且训练依赖全对齐数据。未来计划设计轻量化Transformer框架,并探索无监督配准方法以降低数据需求。此外,将进一步扩展网络至非刚性配准任务,以应对更复杂的形变场景。

本文为多模态遥感影像配准提供了新思路,其开源代码与实验设计可为后续研究提供重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com