分享自:

基于语言引导的遥感图像指代分割方法研究

期刊:IEEE Transactions on Geoscience and Remote Sensing

本研究旨在为遥感图像处理领域引入并探索一项新任务——基于语言的遥感图像分割(Referring Remote Sensing Image Segmentation, RRSIS),并为此创建了首个专用数据集(RefSegRS)并提出了一种新的增强模块(LGCE)。论文《RRSIS: Referring Remote Sensing Image Segmentation》发表于IEEE Transactions on Geoscience and Remote Sensing期刊。主要作者为来自德国慕尼黑工业大学(Technical University of Munich)数据科学在地球观测方向的主席、深圳大学以及慕尼黑机器学习中心的Zhenghang Yuan (学生会员)、 Lichao Mou、Yuansheng Hua和Xiao Xiang Zhu (Fellow)。

在学术背景方面,本研究属于计算机视觉与遥感图像处理的交叉领域。随着遥感数据量的激增,自动感知技术(如图像分类、目标检测、语义分割)得到了长足发展。然而,现有方法多依赖预设类别进行识别,缺乏灵活性,无法满足终端用户根据个人需求、使用自然语言灵活指定感兴趣目标的需求。尽管基于自然图像的指代表达分割(Referring Image Segmentation)研究已相当深入,但在遥感领域,相关工作几乎空白。遥感图像具有俯瞰视角、目标尺寸小且分布分散、场景尺度大等特点,使得直接将自然图像的方法迁移过来效果不佳。因此,本研究旨在填补这一空白,探索遥感场景下的指代表达分割任务,目标是为终端用户提供一个直观、有针对性的图像分析工具。

详细工作流程包含以下几个核心部分:

第一, 数据集构建(RefSegRS)。 这是本研究的基础性工作。由于没有现成的遥感指代表达分割数据集,作者基于开源的Skyscapes数据集进行构建。具体流程如下:首先,图像采集与预处理:从Skyscapes的16张大图中,以滑动窗口(步长600像素)裁剪出1200x1200像素的图像,确保每张图包含足够的物体和物体间关系。然后,为适配深度学习模型的输入尺寸,将其下采样至512x512像素。最终,共获得285个场景。

其次,指代表达生成。考虑到用户通常通过类别、属性和空间关系来描述目标,作者设计了三类表达模板:1) 仅类别或带属性的类别(如“车辆”、“轻型车辆”);2) 带空间关系的类别(如“沿路的建筑”);3) 同时包含属性和空间关系的类别(如“停车场区域的轻型车辆”)。通过分析Skyscapes的标注,定义了14个目标类别、5个属性标签和7种空间关系,并据此自动生成了大量语言描述。

接着,掩码生成。这是关键步骤,旨在为每个“图像-语言”对自动生成对应的像素级二值掩码(Ground Truth)。流程分为三步:1) 建立概念映射:明确生成表达与原始Skyscapes标签之间的“等同”或“包含”关系(如“道路标记”等同于“车道线”,“轻型车辆”包含“轿车”和“厢式货车”)。2) 生成类别基础掩码:利用Skyscapes的像素级标注,为每个类别(包括复合类别)生成对应的二值掩码。3) 处理空间关系:对于包含空间关系的表达,将基础掩码按连通域划分为多个实例,然后根据指定的空间关系(如“沿着”、“在…内”)过滤掉不符合条件的实例,并为邻接判断添加缓冲区以符合人类视觉直觉,最后合并剩余实例得到最终掩码。经过人工筛选剔除信息量不足的三元组后,最终构建的RefSegRS数据集包含4,420个“图像-语言-标签”三元组,并按场景划分为训练集(151场景, 2,172表达)、验证集(31场景, 431表达)和测试集(103场景, 1,817表达),确保子集间无重叠。

第二, 基准方法评估与分析。 为了全面探索RRSIS任务的特性与挑战,作者在新建的RefSegRS数据集上系统评估了五种最初为自然图像设计的先进指代表达分割方法:LSTM-CNN、ConvLSTM、CMSA、BRINet和LAVT。所有方法均使用推荐的设置进行训练和测试,评估指标包括整体交并比(oIoU)、平均交并比(mIoU)以及在不同IoU阈值(0.5至0.9)下的精度(Pr@X)。这一步骤属于实证分析,目的是了解现有方法在遥感场景下的表现瓶颈。实验发现,CNN-based方法(前四种)在遥感图像上的表现普遍不佳,尤其是在检测小而分散的目标时(如车辆、道路标记)效果很差。例如,表现最好的CNN方法ConvLSTM的Pr@0.5仅为31.21%,而Transformer-based的LAVT方法达到了71.44%。分析表明,CNN方法深层特征空间细节不足,且长距离关系建模能力弱,难以处理遥感图像中前景占比通常小于5%的“困难样本”。尽管LAVT显著优于CNN方法,但其结果仍显示在分割小而分散物体方面存在不足。

第三, 新模型与方法(LGCE模块)的提出与验证。 针对基准测试中发现的小目标分割难题,作者提出了一种新颖的语言引导的跨尺度增强模块。该模块的动机在于:深层特征语义抽象能力强但空间分辨率低;浅层特征空间分辨率高但语义层次低。为了综合利用两者优势,特别是利用语言描述中的尺寸信息(如“汽车”暗示小目标,“建筑”暗示大目标)来指导特征融合,作者设计了LGCE模块,并将其集成到当前最优的基线模型LAVT中。LGCE模块的核心工作流程是:以Swin Transformer第三阶段(浅层、高分辨率)和第四阶段(深层、低分辨率)的视觉特征,以及BERT编码的平均语言特征作为输入。首先,通过线性投影将语言特征分别与浅层、深层视觉特征拼接,并送入独立的Transformer编码器进行尺度特异性融合,生成融合了语言信息的多尺度特征。然后,将这些特征拆分为视觉和语言两部分。接着,利用拆分出的语言特征作为桥梁,通过全连接层对齐维度后,与另一尺度的视觉特征再次拼接,并通过多头自注意力层进行跨尺度融合,使得深层语义信息能增强浅层特征,浅层细节信息也能补充深层特征。最终,将增强后的多尺度视觉特征拼接,送入后续的解码头进行掩码预测。

为了验证LGCE模块的有效性及其两个核心组件(语言引导、跨尺度融合)的作用,作者进行了详细的消融实验。此外,还与基线模型LAVT以及其他基准方法进行了全面对比。

本研究的主要结果如下:

基准评估部分,结果清晰揭示了任务挑战与方法局限。定量结果显示(见表II),Transformer-based的LAVT方法在所有指标上均大幅领先于CNN-based方法,尤其在Pr@0.5上领先超过40个百分点,凸显了Transformer在建模长距离依赖、处理小目标方面的优势。然而,LAVT在更高阈值(如Pr@0.7, Pr@0.9)上的精度仍然较低,表明其对于精确分割小目标仍有困难。定性分析(图6)直观展示了CNN方法在车辆等分散小目标上产生的支离破碎或完全遗漏的预测结果,而LAVT的预测则更为完整,但仍有欠精确之处。

提出的LGCE模型性能方面,结果证明了其有效性。如表II所示,集成了LGCE模块的完整模型在所有评估指标上均超越了基线模型LAVT。具体而言,在Pr@0.6和Pr@0.7上分别有3.74%和7.32%的显著提升,这意味着模型能产生更多高质量(IoU更高)的分割结果。mIoU从57.74%提升至59.96%,体现了模型在分割各类目标,尤其是小目标方面的整体改进。oIoU提升相对较小,说明LAVT本身对大目标的分割已相当好,LGCE的改进主要体现在小目标上。这一点在定性结果(图8)中得到了有力印证:对于“货车”、“车辆”、“道路标记”等表达,LGCE模型的分割结果比LAVT更完整、边界更清晰,减少了对小目标的遗漏和误判。

消融实验结果(表III)为LGCE模块的设计提供了直接证据。当移除语言引导(用随机令牌替代)时,所有指标均急剧下降,特别是Pr@0.5从73.75%跌至59.49%,证明了语言信息对于指导多尺度特征融合至关重要。当仅移除跨尺度融合部分时,模型性能(尤其在Pr@0.7, Pr@0.8, Pr@0.9)也出现明显下滑,表明简单的特征拼接不如设计的跨尺度交互有效。完整模型取得了最佳性能,验证了LGCE模块设计的合理性。此外,计算复杂度分析(表IV)表明,LGCE模块仅带来了边际的计算开销增加,却换来了显著的性能提升,具有较好的实用性。

本研究的结论与意义明确:首先,作者成功在遥感领域引入了指代表达分割这一新任务,扩展了遥感图像解译的交互方式。其次,构建并公开了首个针对该任务的专用数据集RefSegRS,为后续研究提供了宝贵的基准和资源。第三,通过系统的基准测试,深入分析了现有方法在遥感场景下的局限,特别是处理小且分散目标的挑战。第四,针对这一核心挑战,提出的语言引导跨尺度增强模块有效提升了小目标分割性能,为设计更优的RRSIS模型提供了新思路。该研究不仅具有重要的科学价值——推动了多模态学习在遥感领域的深入应用,为视觉-语言理解开辟了新方向;也具备显著的应用价值——使得非专业用户能够通过自然语言灵活、精准地获取遥感图像中的特定信息,提升了遥感数据解译的效率和用户体验。

本研究的亮点突出体现在:1) 任务创新性:首次在遥感领域系统定义并探索了“指代表达分割”任务,填补了研究空白。2) 数据集的创造:通过自动化流程构建了规模可观、标注高质量的专用数据集,是该领域发展的关键基础设施。3) 深入的基准分析:不是简单迁移方法,而是通过严谨实验揭示了遥感场景与自然场景的本质差异及由此带来的技术挑战。4) 针对性的方法创新:提出的LGCE模块并非泛泛的改进,而是精准针对“小且分散目标分割难”这一遥感特有痛点,设计巧妙,且效果经过充分验证。5) 完整的贡献链条:从任务定义、数据集构建、问题分析到方法提出,形成了一个完整、闭环的研究范例,对后续工作具有很高的参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com