基于目标语义提示与双注意力感知的遥感图像文本检索方法学术报告
一、作者与发表信息
本研究由田澍(北京信息科技大学信息与通信工程学院)、张秉熙(同单位)、曹林(通信作者,同单位)、邢相薇(北京市遥感信息研究所)、田菁(同单位)、沈博(中国电子科技集团公司第十五研究所)、杜康宁(北京信息科技大学)、张晔(哈尔滨工业大学信息与通信工程学院)合作完成,发表于《电子与信息学报》(Journal of Electronics & Information Technology)2025年6月第47卷第6期,DOI编号10.11999/jeit240946。
二、学术背景
高分辨率遥感图像具有场景复杂、语义多样、目标尺度多变的特点,导致传统跨模态检索方法难以精准对齐图像与文本特征。现有方法(如两阶段生成-匹配或单阶段嵌入对齐)受限于显著目标解耦困难、跨模态异构性等问题。本研究提出OSDPM(Object Semantic and Dual-attention Perception Model)模型,结合目标语义先验与双注意力机制,旨在提升遥感图像-文本检索的精度与鲁棒性。
三、研究流程与方法
1. 预训练特征提取
- 研究对象:RSICD(10,921张图像,30类场景)和RSITMD(4,743张图像,32类场景)数据集,按8:1:1划分训练/验证/测试集。
- 方法:采用预训练CLIP模型提取图像与文本的全局特征。图像编码器基于ResNet-50,文本编码器基于Transformer,输出特征分别记为( v_m )和( t_m )。
双注意力感知网络(DAPN)
目标语义感知特征聚类模块(OSFCM)
训练与评估
四、主要结果
1. 性能对比
- RSICD数据集:OSDPM的Rsum达129.98%,较基线HVSA提升9.01%,文本→图像检索任务R@10提升2.54%。
- RSITMD数据集:Rsum达207.77%,图像→文本检索R@1提升1.48%,但文本→图像检索R@10与HVSA持平,表明模型对高分辨率图像特征判别性更强。
消融实验
特征分布分析
五、结论与价值
1. 科学价值:
- 提出首个融合目标语义先验与双注意力的遥感跨模态检索框架,为复杂场景下的特征解耦提供新思路。
- 证明CLIP模型在遥感领域的可迁移性,结合自适应注意力机制可增强域适应性。
六、研究亮点
1. 方法创新:
- DAPN通过动态记忆单元实现多尺度目标特征聚合,克服了传统注意力机制对固定区域的依赖。
- OSFCM首次将词频统计引入跨模态聚类,利用轻量先验信息优化特征分布。
七、其他发现
- 局限性:OSFCM的单目标标签策略对多目标场景适应性不足,未来需探索多标签聚类优化。
- 扩展性:框架可适配其他模态(如SAR图像)检索任务,需进一步验证泛化能力。
(全文约1,800字)