分享自:

基于目标语义提示与双注意力感知的遥感图像文本检索方法

期刊:电子与信息学报DOI:10.11999/jeit240946

基于目标语义提示与双注意力感知的遥感图像文本检索方法学术报告

一、作者与发表信息
本研究由田澍(北京信息科技大学信息与通信工程学院)、张秉熙(同单位)、曹林(通信作者,同单位)、邢相薇(北京市遥感信息研究所)、田菁(同单位)、沈博(中国电子科技集团公司第十五研究所)、杜康宁(北京信息科技大学)、张晔(哈尔滨工业大学信息与通信工程学院)合作完成,发表于《电子与信息学报》(Journal of Electronics & Information Technology)2025年6月第47卷第6期,DOI编号10.11999/jeit240946。

二、学术背景
高分辨率遥感图像具有场景复杂、语义多样、目标尺度多变的特点,导致传统跨模态检索方法难以精准对齐图像与文本特征。现有方法(如两阶段生成-匹配或单阶段嵌入对齐)受限于显著目标解耦困难、跨模态异构性等问题。本研究提出OSDPM(Object Semantic and Dual-attention Perception Model)模型,结合目标语义先验与双注意力机制,旨在提升遥感图像-文本检索的精度与鲁棒性。

三、研究流程与方法
1. 预训练特征提取
- 研究对象:RSICD(10,921张图像,30类场景)和RSITMD(4,743张图像,32类场景)数据集,按8:1:1划分训练/验证/测试集。
- 方法:采用预训练CLIP模型提取图像与文本的全局特征。图像编码器基于ResNet-50,文本编码器基于Transformer,输出特征分别记为( v_m )和( t_m )。

  1. 双注意力感知网络(DAPN)

    • 目标感知注意力模块:将图像特征切割为( n \times n )网格,通过记忆单元(含线性层Linear0/1)动态更新局部显著区域的注意力权重,生成加权特征图( \hat{v}_m^t )。
    • 空间-通道协同注意力模块:分别计算空间注意力权重( v_m^s )(通过平均/最大池化与MLP)和通道注意力权重( v_m^c \),与目标感知权重交互,最终输出增强特征( v_m^a )。
    • 创新点:首次在遥感领域耦合局部显著目标动态捕捉与全局空间-通道注意力,解决多尺度目标表征难题。
  2. 目标语义感知特征聚类模块(OSFCM)

    • 流程:统计文本描述中的目标类别名词词频,生成One-hot编码作为先验语义标签;在共性嵌入空间中初始化簇中心( pi ),通过余弦距离损失( \mathcal{L}{osfcm} )优化同类特征聚类。
    • 作用:缓解跨模态特征分布混淆,提升对齐精度。
  3. 训练与评估

    • 损失函数:三元组损失( \mathcal{L}_{tri} )(促进正样本靠近、负样本远离)与OSFCM损失联合优化。
    • 实验设置:AdamW优化器,学习率0.0001,Batch Size 64,在NVIDIA RTX 2080Ti上实现。评估指标包括R@K(召回率)和Rsum(综合检索性能)。

四、主要结果
1. 性能对比
- RSICD数据集:OSDPM的Rsum达129.98%,较基线HVSA提升9.01%,文本→图像检索任务R@10提升2.54%。
- RSITMD数据集:Rsum达207.77%,图像→文本检索R@1提升1.48%,但文本→图像检索R@10与HVSA持平,表明模型对高分辨率图像特征判别性更强。

  1. 消融实验

    • DAPN模块在RSICD上使Rsum提升2.97%,OSFCM模块提升1.70%,验证了双注意力与语义聚类的有效性。
    • 可视化实验显示,DAPN能精准聚焦“高速公路”“油罐”等目标,且忽略背景干扰(图5)。
  2. 特征分布分析

    • T-SNE可视化(图8)表明,OSFCM使图像-文本特征在训练40轮后实现紧密对齐,分布均匀性显著改善。

五、结论与价值
1. 科学价值
- 提出首个融合目标语义先验与双注意力的遥感跨模态检索框架,为复杂场景下的特征解耦提供新思路。
- 证明CLIP模型在遥感领域的可迁移性,结合自适应注意力机制可增强域适应性。

  1. 应用价值
    • 在环境监测、灾害预警等需快速检索遥感图像的场景中,OSDPM的高精度特性可提升效率。

六、研究亮点
1. 方法创新
- DAPN通过动态记忆单元实现多尺度目标特征聚合,克服了传统注意力机制对固定区域的依赖。
- OSFCM首次将词频统计引入跨模态聚类,利用轻量先验信息优化特征分布。

  1. 性能突破
    • 在RSITMD上图像→文本检索R@10达49.48%,创当前最优记录。

七、其他发现
- 局限性:OSFCM的单目标标签策略对多目标场景适应性不足,未来需探索多标签聚类优化。
- 扩展性:框架可适配其他模态(如SAR图像)检索任务,需进一步验证泛化能力。

(全文约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com