本文介绍一篇发表在《Remote Sensing》期刊上的原创性研究论文,题为《A Dual-Branch Network of Strip Convolution and Swin Transformer for Multimodal Remote Sensing Image Registration》。该研究由西安理工大学自动化与信息工程学院的Kunpeng Mu、Wenqing Wang(通讯作者)、Han Liu、Lili Liang和Shuang Zhang共同完成,并于2025年3月18日正式发表。研究聚焦于多模态遥感影像的刚性配准问题,提出了一种创新的双分支网络架构,旨在解决现有方法在大尺度刚性变形(如旋转、缩放)配准中的局限性。
多模态遥感影像配准是遥感图像处理与解译中的核心任务,其目标是通过精确对齐不同传感器获取的图像数据,提升遥感数据的精度与应用价值。不同传感器(如光学、合成孔径雷达SAR、红外等)具有独特的成像机制与特性,多模态影像的融合可充分发挥各传感器的优势。然而,由于传感器视角、环境因素等影响,多模态影像常存在几何形变(如旋转、平移)和辐射差异,传统配准方法(如基于区域或特征的方法)在处理大尺度刚性变形时表现不佳。深度学习虽展现出潜力,但现有方法多依赖双胞胎卷积神经网络(CNNs)或两阶段流程,难以实现端到端的高精度配准。为此,本研究提出了一种结合条带卷积(strip convolution)与Swin Transformer的双分支网络,以应对实际工程中严格的配准需求。
研究提出了一种端到端的双分支配准网络,包含三个核心模块:双分支特征提取、仿射参数回归和空间变换网络(STN)。以下为详细流程:
双分支特征提取模块
仿射参数回归模块
将固定影像与移动影像的特征拼接后输入ResNet34网络,通过全连接层预测6个仿射参数(旋转、平移、缩放)。创新性地采用并行卷积块(PCB),整合不同尺寸卷积核(1×1、3×3、5×5)提取的特征,提升参数回归的鲁棒性。
空间变换网络(STN)
将预测的仿射参数应用于移动影像,通过网格生成与采样完成配准。STN直接学习几何变换,无需复杂的中间步骤。
研究在三个数据集(Pan-MS、IR-Opt、SAR-Opt)上验证了方法的有效性,涵盖不同模态与大尺度刚性变形场景:
- 数据集:
- Pan-MS:高分1号、WorldView-2/4卫星影像,分辨率0.5m(全色)与2m(多光谱),训练1104对,测试148对。
- IR-Opt:成都平原区域影像,分辨率30m,训练1325对,测试200对。
- SAR-Opt:Sen1-2数据集,分辨率5m(SAR)与10m(光学),训练1300对,测试300对。
- 评价指标:重投影误差(RE)、互信息(MI)、归一化互相关系数(NCC)和均方根误差(RMSE)。
- 对比方法:包括传统方法(SIFT、RIFT、TWMM)和深度学习方法(TransMorph、SuperFusion、ADRNet)。
实验结果:
- 定量分析显示,本文方法在三个数据集上均取得最优性能。例如,在IR-Opt数据集上,RE(3.5301)、MI(0.7305)和NCC(0.9623)优于ADRNet(RE 3.6888);在SAR-Opt数据集上,RMSE(0.9397)较ADRNet降低22.53%。
- 定性对比(棋盘格可视化)表明,该方法能精准对齐全局与局部区域,尤其在复杂地形和大变形场景中表现稳定。
- 消融实验验证了各模块(Swin Transformer、SBM、PCB等)的贡献,移除任一模块均导致性能显著下降。
本研究提出了一种针对多模态遥感影像刚性配准的双分支网络,其科学价值与应用价值如下:
1. 科学价值:
- 创新性地融合了Swin Transformer的全局建模能力与条带卷积的多方向特征提取优势,解决了传统方法在复杂形变下的配准难题。
- 通过端到端训练实现了仿射参数的直接学习,避免了传统流程中特征匹配与参数估计的误差累积。
2. 应用价值:
- 为多源遥感数据融合、变化检测等下游任务提供了高精度配准基础,尤其在灾害监测、农业遥感等领域具有工程应用潜力。
- 模型在保持较低参数量(22.15M)的同时实现高效配准(单帧耗时0.227秒),适合实际部署。
尽管成果显著,研究仍存在以下局限:Swin Transformer对大规模影像的长程依赖建模不足,且训练依赖全对齐数据。未来计划设计轻量化Transformer框架,并探索无监督配准方法以降低数据需求。此外,将进一步扩展网络至非刚性配准任务,以应对更复杂的形变场景。
本文为多模态遥感影像配准提供了新思路,其开源代码与实验设计可为后续研究提供重要参考。