分享自:

基于多尺度空间引导联合预测的遥感图像参考分割方法

期刊:IEEE Journal of Selected Topics in Applied Earth Observations and Remote SensingDOI:10.1109/JSTARS.2025.3638802

关于STD-Net遥感图像指称分割方法研究的学术报告

本研究由来自北京科技大学自动化与电气工程学院的张天祥、温兆坤、孔博、刘克成、张轶思、庄沛贤(IEEE高级会员)以及李江云(IEEE会员)共同完成。其中,庄沛贤和李江云还隶属于北京科技大学知识自动化工业过程教育部重点实验室。该研究成果已发表于 ieee journal of selected topics in applied earth observation and remote sensing 期刊,文献版本信息显示其已被接受,并将于2025年正式出版(引用标识:doi 10.1109/jstars.2025.3638802)。

一、 研究的学术背景

本研究属于人工智能与地球观测交叉领域,具体聚焦于指称遥感图像分割(Referring Remote Sensing Image Segmentation, RRSIS)。RRSIS的任务是根据给定的自然语言描述,在遥感图像中分割出与之对应的目标实例。与传统的基于预定义类别的语义分割不同,RRSIS通过开放域的文本指令,为环境监测、土地覆盖分类、精准农业和城市规划等应用提供了极大的灵活性和细粒度信息提取能力。然而,由于遥感图像固有的特性,RRSIS面临着一系列独特挑战:首先是巨大的视觉-语言鸿沟(vision-language gap)——与自然图像领域拥有大规模跨模态预训练模型(如CLIP)不同,遥感领域缺乏此类先验知识,导致视觉特征与文本描述在分布上存在显著差异,难以有效对齐。其次是遥感图像覆盖范围广,包含的物体类别多样、目标尺度变化大,且常常出现小目标。第三,遥感图像中的目标常常聚集分布或与背景混杂,目标边界模糊不清,加之俯视视角下物体轮廓不清晰,进一步增加了精确分割的难度。现有的方法多从自然图像指称分割(RIS)任务迁移而来,在处理上述遥感特有挑战时,在跨模态特征交互、多尺度目标捕捉和复杂文本-对象关系理解方面存在局限。因此,本研究旨在针对这些核心问题,提出一个新颖的、能够有效缩小视觉-语言鸿沟、增强多尺度特征交互并提升细粒度目标区分能力的RRSIS框架。

二、 研究的详细工作流程

本研究提出了一种名为STD-Net的创新框架,其核心工作流程围绕三个主要组件展开:空间多尺度相关性模块、目标-背景双流解码器以及双模态对象学习策略。整体流程遵循编码-解码的范式,并引入了独特的跨模态交互与联合预测机制。

第一,研究对象与数据预处理。 研究在两个公开的RRSIS基准数据集上进行:RefSegRS和RRSIS-D。RefSegRS包含4,420个图像-文本-掩膜三元组,图像分辨率为512×512,涵盖建筑、车辆、植被等多种类别。RRSIS-D规模更大,包含17,402个三元组,图像分辨率为800×800,覆盖了更广泛的场景和更复杂的空间尺度与方向变化。此外,为了全面验证模型的鲁棒性和泛化性,研究还在一个更新的、更大规模的数据集RIS-Bench(包含52,472个三元组)上进行了额外测试。在模型输入阶段,对于输入的文本描述,首先使用NLTK库识别并掩码(mask) 其中的关键对象词汇(如名词),生成一个掩码后的文本版本,用于后续的背景建模和文本重建任务。图像和原始文本则分别输入到视觉和文本编码器。

第二,编码与跨模态特征交互。 视觉编码器采用在ImageNet-22K上预训练的Swin Transformer Base模型,文本编码器采用BERT-Base模型。为了进行层次化的跨模态交互,研究将BERT的12层划分为四个阶段,与Swin Transformer的四个特征提取阶段对齐。在每个编码阶段,本研究提出的核心模块——空间多尺度相关性模块(Spatial Multi-scale Correlation Module, SMSC) 被引入,以实现精细化的双向跨模态信息交换。SMSC的创新之处在于超越了传统的“令牌对令牌”注意力机制。其具体工作流程如下:1) 局部上下文提取:对于当前阶段的视觉特征图Vi和文本特征嵌入Li,分别使用不同大小的滑动窗口(感受野k ∈ {1, 3, 5})进行展开(unfold) 操作,提取局部空间上下文特征块(Wv 和 Wl)。2) 双向多尺度亲和力计算:通过矩阵乘法,计算从视觉到文本(Wv2l)和从文本到视觉(Wl2v)的亲和力权重矩阵,不同感受野的贡献通过可学习的参数αk和βk加权求和。3) 跨模态重加权与融合:利用计算出的亲和力矩阵对另一模态的特征进行重加权,再通过一个门控单元(由1×1卷积和InstanceNorm组成)控制信息流,最后通过残差连接与原始特征融合,生成增强后的视觉特征V‘i和文本特征L‘i。这个过程使模型能够在多个局部尺度上建立空间关联,有效应对遥感图像中目标尺度多变和背景纹理重复的挑战。

第三,解码与联合预测。 编码器输出的多尺度视觉特征V‘和文本特征L‘n被送入目标-背景双流解码器(Target-Background Twin-stream Decoder, T-BTD)。T-BTD包含两个关键子模块:1) 渐进式视觉-语言融合:将多阶段视觉特征拼接、展平后,与文本特征进行交叉注意力交互,迭代更新,最终得到上下文增强的视觉特征V*和文本特征L*。2) 可学习的前景-背景预测器:这是本研究的另一个创新点。模型不仅预测前景目标,还显式地预测“类别无关”的背景区域。具体而言,先前生成的掩码文本特征Lm经过自适应池化和可学习参数嵌入,被转换为背景语义提示L*m。前景原型(取L*中的[CLS]令牌)和背景原型(L*m的平均池化结果)分别与视觉特征V*在共享的嵌入空间中进行像素级相似度计算,生成前景概率图Ofg和背景概率图Obg。这两个分支通过带有平衡系数λ的交叉熵损失(Lfg和Lbg)联合监督。这种双流设计使得模型能够通过背景信息来反推和精炼前景目标边界,尤其适用于目标模糊、边界不清的遥感场景。

第四,双模态语义增强学习。 为了进一步提升模型对复杂、可能不完整文本描述的理解和鲁棒性,本研究提出了双模态对象学习策略(Dual-modal Object Learning Strategy, D-MOLS)。该策略引入了一个文本重建任务作为辅助监督。具体流程是:利用从T-BTD中获得的对齐良好的跨模态特征V*和L*,作为上下文信息,指导一个重建模块去恢复输入文本中被掩码掉的关键对象词汇。重建模块也是一个基于交叉注意力的Transformer解码器。重建出的文本嵌入与原始文本嵌入(停止梯度)计算L2损失(Lre)。该损失与分割的主损失Lce(即Lfg + Lbg)加权求和(权重η),构成总损失函数。这一策略迫使模型必须深入理解视觉内容与语言描述之间的语义关联,才能正确“猜出”被掩盖的词汇,从而在本质上加强了跨模态对齐和语义推理能力。

第五,实验验证与数据分析流程。 研究遵循标准的机器学习实验流程。在RefSegRS和RRSIS-D数据集上,按照给定的训练集、验证集和测试集划分进行模型训练与评估。训练使用AdamW优化器,采用“poly”学习率衰减策略,在4张NVIDIA RTX 4090 GPU上训练50个周期。评估采用了三项互补的指标:在不同IoU阈值(0.5至0.9)下的精确度(Pr@x)、平均交并比(mIoU)和整体交并比(oIoU)。研究进行了详尽的性能对比实验(与现有SOTA方法比较)、消融实验(验证各模块有效性)、计算效率分析以及定性结果可视化,以全面论证STD-Net的性能优势和技术贡献。

三、 研究的主要结果

研究的实验结果为所提出的STD-Net框架及其各个组件的有效性提供了强有力的数据支持。

在RefSegRS数据集上,STD-Net取得了全面的领先。如表I所示,STD-Net在测试集上的mIoU达到67.95%,显著超越了之前的SOTA方法LGCE(59.96%)和FIANet(67.16%)。更重要的是,在高精度指标(Pr@0.8和Pr@0.9)上,STD-Net分别取得了34.40%和9.14%,相比其他方法有大幅度提升(例如在Pr@0.8上比FIANet高出约8%)。这表明STD-Net在分割的精确性和边界处理上具有显著优势。类别分析(表IV)显示,模型在道路(82.36%)、不透水面(85.62%)、车辆(80.79%)等多种尺度的目标上都取得了最佳性能,验证了其多尺度适应能力。

在RRSIS-D数据集上,STD-Net同样表现卓越(表II)。其在测试集上的mIoU为66.04%,oIoU为79.23%,均位居榜首。在Pr@0.5到Pr@0.9的各项指标上持续领先,特别是在Pr@0.7(59.29%)和Pr@0.8(46.25%)上优势明显。类别分析(表V)进一步表明,STD-Net在高尔夫球场、体育场等大型目标,以及车辆、风车等小型目标上均表现优异,体现了强大的泛化能力。

在更大、更具挑战性的RIS-Bench数据集上的扩展实验(表III)进一步巩固了结论。STD-Net以68.51%的mIoU和75.85%的oIoU刷新了该数据集的最佳性能,尤其是在高阈值Pr@0.8和Pr@0.9上分别达到55.42%和35.81%,显著优于其他竞争者,证明了模型在处理大规模、多样化、复杂场景时的鲁棒性和泛化能力,有效缓解了过拟合或数据集偏差的担忧。

消融研究为每个核心组件的贡献提供了关键证据。表VI显示,SMSC模块在mIoU和oIoU上均优于其他跨模态交互机制(如PWAM、WPA)。表VII证实了SMSC中双向交互以及多阶段使用的必要性,移除视觉到文本或文本到视觉的任一通路都会导致性能下降。表VIII和表IX证明了T-BTD中多尺度上下文融合(MCI)和背景先验知识(使用掩码文本)的有效性,当背景语义令牌数量设置为5且启用先验知识时达到最佳性能。表X和表XI的系统性消融表明,移除T-BTD或D-MOLS任一组件都会导致性能显著下降,并且损失权重λ=0.6和η=0.1时达到最优平衡。表XII进一步指出,D-MOLS带来的性能增益远超简单的特征正则化方法(如正交性约束),说明其通过语义重建任务实现的跨模态推理是性能提升的关键,而非仅仅起正则化作用。

定性可视化结果(图5,图6)直观地展示了STD-Net的优势:在车辆、建筑等目标上分割更完整、边界更准确;能有效区分外观相似但文本描述不同的密集小目标;对于语义模糊的描述(如“停车场里的货车”)有更强的对齐和理解能力。图7展示了SMSC模块在不同感受野下对多尺度目标特征激活的适应性。图8则清晰演示了T-BTD双流预测的互补性,背景流有助于抑制噪声并完善前景目标的边界。

四、 研究的结论与价值

本研究成功提出并验证了STD-Net这一针对遥感指称分割任务的创新框架。结论可概括为:通过引入空间多尺度相关性模块(SMSC)有效桥接了遥感领域的视觉-语言鸿沟,实现了细粒度的跨模态对齐;通过目标-背景双流解码器(T-BTD)以联合预测的方式,显著提升了模型对模糊边界和密集目标的处理能力;通过双模态对象学习策略(D-MOLS)增强了模型对复杂文本的语义推理和鲁棒性。三个模块协同工作,使STD-Net在多个标准及扩展数据集上均取得了最先进的性能。

本研究的科学价值在于:1)首次在RRSIS任务中系统性地集成了空间多尺度关联、前景-背景联合建模和跨模态重建学习,为处理该任务的固有挑战提供了新的方法论和系统解决方案。2)所提出的SMSC、T-BTD和D-MOLS模块设计具有创新性,对广义的视觉-语言任务,特别是涉及复杂场景和多尺度目标的任务,具有启发和借鉴意义。3)大量详实的实验,包括在新的大规模基准RIS-Bench上的验证,为未来研究树立了新的性能标杆和严谨的评估范式。

应用价值则直接体现在:STD-Net模型能够更准确、更灵活地根据自然语言指令从海量遥感影像中提取特定信息,这将极大地降低遥感数据分析对专业知识的依赖,提升在环境动态监测、灾害评估、城市规划、精准农业等领域的自动化水平和决策支持能力。

五、 研究的亮点

  1. 创新性的模块设计:SMSC模块通过局部空间上下文展开和多感受野关联,实现了超越传统注意力的精细跨模态对齐;T-BTD模块开创性地将背景作为显式预测目标,通过前景-背景互斥学习提升分割质量;D-MOLS模块利用掩码重建任务作为强语义监督,深化了模型对文本-图像对应关系的理解。
  2. 针对性的问题解决:整个框架设计直指RRSIS的核心痛点——视觉-语言鸿沟、多尺度目标、模糊边界和复杂文本,每个组件都针对性地解决其中一个或几个问题,并形成合力。
  3. 全面且严谨的验证:研究不仅在两个主流数据集上取得了显著优势,还通过在新发布的、规模更大、场景更复杂的RIS-Bench数据集上的卓越表现,证明了模型的强泛化能力和鲁棒性,避免了在小数据集上过拟合的质疑。详尽的消融实验和定性分析为每个技术贡献提供了扎实的佐证。
  4. 平衡的效率与性能:尽管模型性能卓越,但其参数量(279.26M)和推理速度(31.85 图像/秒)在同类先进模型中处于合理范围,展示了良好的实用潜力。

六、 其他有价值的探讨

文章在最后讨论了当前方法的局限性并指出了未来方向:1)当前使用的BERT文本编码器在处理遥感领域专业、复杂的描述时可能存在不足,未来可探索集成大语言模型(LLM)以更好地弥合领域鸿沟。2)当前模型假定输入图像-文本对中目标一定存在,受数据集偏差影响,缺乏对目标“存在性”的判断能力。未来需要开发更具判别性和鲁棒性的RRSIS方法,以应对更真实的开放世界应用场景。这些讨论体现了研究的深度和前瞻性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com