分享自:

在地球上定位任何事物:推进遥感社区开放词汇对象检测

期刊:association for the advancement of artificial intelligence

《Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community》学术报告

作者与机构

本研究由多所顶尖学术机构合作完成,第一作者为Jiancheng Pan(清华大学、浙江工业大学),共同一作Yanxing Liu(中国科学院大学),通讯作者为Yuqian Fu(ETH Zürich、INSIT)和Xiaomeng Huang(清华大学)。其他合作者来自苏黎世联邦理工学院、保加利亚索菲亚大学等。论文预印版于2025年3月发布于arXiv,预计将发表于AAAI(Association for the Advancement of Artificial Intelligence)会议。

学术背景

研究领域:该研究属于计算机视觉与遥感交叉领域,聚焦开放词汇目标检测(Open-Vocabulary Object Detection, OVD)技术在遥感影像中的应用。传统OVD模型基于自然图像训练,难以迁移至遥感场景,原因包括:
1. 领域差异:遥感影像分辨率更高、视角独特(如俯视)、语义类别差异大(如“机场跑道”在自然图像中罕见);
2. 数据匮乏:现有遥感数据集规模小、标注类别有限,缺乏支持开放词汇训练的多样性。

研究目标:提出Locate Anything on Earth(LAE)任务,旨在构建首个面向遥感的大规模开放词汇检测框架,包含数据集(LAE-1M)与模型(LAE-DINO),突破现有OVD在遥感领域的泛化瓶颈。

研究流程与方法

1. LAE-Label Engine:构建LAE-1M数据集

  • 数据来源:整合10个公开遥感数据集(如DIOR、DOTA v2.0、xView),涵盖100万实例,分为两类:
    • 精细标注数据(LAE-FOD):通过图像切片、格式对齐(统一为COCO格式)和采样处理,保留原始标注;
    • 粗标注数据(LAE-COD):利用Segment Anything Model(SAM)提取感兴趣区域(ROI),结合大视觉语言模型(如InternVL)自动生成类别标签,再经规则过滤去除无效标注。
  • 创新点:半自动化标注流程显著降低人工成本,LAE-1M成为迄今类别覆盖最广(约1600类)的遥感检测数据集。

2. LAE-DINO模型开发

基于DINO(基于Transformer的检测器)架构,新增两大模块:
- 动态词汇构建(Dynamic Vocabulary Construction, DVC):每训练批次动态选择正负类别词汇(固定长度60),解决传统BERT文本编码器输入长度受限(≤256词)问题。
- 视觉引导文本提示学习(Visual-Guided Text Prompt Learning, VisGT)
- 场景特征提取:融合图像中多对象文本特征生成“场景特征”(如“飞机+车辆→机场场景”);
- 视觉-语义对齐:通过多尺度可变形自注意力(MDSA)将视觉特征映射至语义空间,增强文本提示的上下文感知能力。
- 训练目标:联合优化分类损失(Cross-Entropy)、定位损失(GIoU)和VisGT对比损失(权重β=10)。

3. 实验验证

  • 基准测试:在DIOR、DOTA v2.0和自建LAE-80C(80类新基准)上评估,对比GLIP、GroundingDINO等OVD模型。
  • 关键结果
    • 开放集检测:LAE-DINO在DIOR的AP50达85.5%,较GroundingDINO提升1.9%;
    • 少样本学习:在HRRSD数据集上,3类新类别的10-shot检测AP提升至15.8%(基线模型13.8%);
    • 数据有效性:仅需50% DIOR训练数据微调,AP50即可达89.1%,验证LAE-1M的预训练优势。

主要结论与价值

  1. 科学价值
    • 首次定义LAE任务,为遥感开放词汇检测建立标准框架;
    • VisGT模块创新性地通过视觉特征增强文本提示,解决遥感场景复杂语义表达问题。
  2. 应用价值
    • LAE-1M数据集支持环境监测、灾害评估等地球科学应用;
    • LAE-DINO作为基础模型,可快速适配少样本场景,降低实地标注成本。

研究亮点

  • 数据创新:LAE-1M通过自动化标注实现规模与多样性的突破;
  • 模型创新:DVC与VisGT模块针对性解决遥感OVD的核心挑战;
  • 性能优势:在开放集、少样本场景均达到SOTA,且计算效率优于传统方法。

其他贡献

  • 公开代码(GitHub)与LAE-80C基准,推动社区后续研究;
  • 附录详述数据质量评估(人工评分4.33/5),验证LAE-COD标注可靠性。

(注:专业术语如“开放词汇目标检测(OVD)”“GIoU(Generalized Intersection over Union)”首次出现时标注英文原词,后续使用中文简称。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com