基于条带卷积和Swin Transformer的双分支网络在多模态遥感图像配准中的应用

分享自：
基于条带卷积和Swin Transformer的双分支网络在多模态遥感图像配准中的应用

自动化
工程学
期刊:Remote SensingDOI:10.3390/rs17061071
【点击此处】阅读全文、收藏及针对性提问
本文介绍一篇发表在《Remote Sensing》期刊上的原创性研究论文，题为《A Dual-Branch Network of Strip Convolution and Swin Transformer for Multimodal Remote Sensing Image Registration》。该研究由西安理工大学自动化与信息工程学院的Kunpeng Mu、Wenqing Wang（通讯作者）、Han Liu、Lili Liang和Shuang Zhang共同完成，并于2025年3月18日正式发表。研究聚焦于多模态遥感影像的刚性配准问题，提出了一种创新的双分支网络架构，旨在解决现有方法在大尺度刚性变形（如旋转、缩放）配准中的局限性。
学术背景与研究目标多模态遥感影像配准是遥感图像处理与解译中的核心任务，其目标是通过精确对齐不同传感器获取的图像数据，提升遥感数据的精度与应用价值。不同传感器（如光学、合成孔径雷达SAR、红外等）具有独特的成像机制与特性，多模态影像的融合可充分发挥各传感器的优势。然而，由于传感器视角、环境因素等影响，多模态影像常存在几何形变（如旋转、平移）和辐射差异，传统配准方法（如基于区域或特征的方法）在处理大尺度刚性变形时表现不佳。深度学习虽展现出潜力，但现有方法多依赖双胞胎卷积神经网络（CNNs）或两阶段流程，难以实现端到端的高精度配准。为此，本研究提出了一种结合条带卷积（strip convolution）与Swin Transformer的双分支网络，以应对实际工程中严格的配准需求。
研究方法与流程研究提出了一种端到端的双分支配准网络，包含三个核心模块：双分支特征提取、仿射参数回归和空间变换网络（STN）。以下为详细流程：
双分支特征提取模块
上分支：结合多尺度卷积与Swin Transformer，通过多尺度特征提取（MSFE）捕获不同层次的影像特征。MSFE包含上、中、下三个分支，分别进行不同尺度的卷积与残差连接，最终融合多尺度特征。Swin Transformer通过局部窗口自注意力机制建模长程依赖，增强全局结构理解。
 
下分支：设计条带卷积块（SBM），结合水平、垂直和对角方向的卷积，提取多方向上下文信息。引入通道与空间注意力模块（CA/SA）抑制无关特征干扰，并通过高效轻量级模块（EMO）融合CNN的局部建模与Transformer的全局上下文能力。
 
特征融合：将上下分支的输出相加，得到兼具全局语义与局部细节的最终特征。
仿射参数回归模块
 将固定影像与移动影像的特征拼接后输入ResNet34网络，通过全连接层预测6个仿射参数（旋转、平移、缩放）。创新性地采用并行卷积块（PCB），整合不同尺寸卷积核（1×1、3×3、5×5）提取的特征，提升参数回归的鲁棒性。
空间变换网络（STN）
 将预测的仿射参数应用于移动影像，通过网格生成与采样完成配准。STN直接学习几何变换，无需复杂的中间步骤。
实验设计与结果研究在三个数据集（Pan-MS、IR-Opt、SAR-Opt）上验证了方法的有效性，涵盖不同模态与大尺度刚性变形场景：
 - 数据集：
 - Pan-MS：高分1号、WorldView-2/4卫星影像，分辨率0.5m（全色）与2m（多光谱），训练1104对，测试148对。
 - IR-Opt：成都平原区域影像，分辨率30m，训练1325对，测试200对。
 - SAR-Opt：Sen1-2数据集，分辨率5m（SAR）与10m（光学），训练1300对，测试300对。
 - 评价指标：重投影误差（RE）、互信息（MI）、归一化互相关系数（NCC）和均方根误差（RMSE）。
 - 对比方法：包括传统方法（SIFT、RIFT、TWMM）和深度学习方法（TransMorph、SuperFusion、ADRNet）。
实验结果：
 - 定量分析显示，本文方法在三个数据集上均取得最优性能。例如，在IR-Opt数据集上，RE（3.5301）、MI（0.7305）和NCC（0.9623）优于ADRNet（RE 3.6888）；在SAR-Opt数据集上，RMSE（0.9397）较ADRNet降低22.53%。
 - 定性对比（棋盘格可视化）表明，该方法能精准对齐全局与局部区域，尤其在复杂地形和大变形场景中表现稳定。
 - 消融实验验证了各模块（Swin Transformer、SBM、PCB等）的贡献，移除任一模块均导致性能显著下降。
结论与价值本研究提出了一种针对多模态遥感影像刚性配准的双分支网络，其科学价值与应用价值如下：
 1. 科学价值：
 - 创新性地融合了Swin Transformer的全局建模能力与条带卷积的多方向特征提取优势，解决了传统方法在复杂形变下的配准难题。
 - 通过端到端训练实现了仿射参数的直接学习，避免了传统流程中特征匹配与参数估计的误差累积。
 2. 应用价值：
 - 为多源遥感数据融合、变化检测等下游任务提供了高精度配准基础，尤其在灾害监测、农业遥感等领域具有工程应用潜力。
 - 模型在保持较低参数量（22.15M）的同时实现高效配准（单帧耗时0.227秒），适合实际部署。
研究亮点方法创新：首次将Swin Transformer与条带卷积结合，构建双分支特征提取框架，兼顾多尺度与多方向特征。
 
技术突破：设计并行卷积块（PCB）提升仿射参数回归的适应性，并通过对称损失函数（Lsymaff）增强配准一致性。
 
实验全面性：覆盖Pan-MS、IR-Opt、SAR-Opt三大典型模态，验证了方法的普适性与鲁棒性。
 
局限与展望尽管成果显著，研究仍存在以下局限：Swin Transformer对大规模影像的长程依赖建模不足，且训练依赖全对齐数据。未来计划设计轻量化Transformer框架，并探索无监督配准方法以降低数据需求。此外，将进一步扩展网络至非刚性配准任务，以应对更复杂的形变场景。
本文为多模态遥感影像配准提供了新思路，其开源代码与实验设计可为后续研究提供重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问