《Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community》学术报告
本研究由多所顶尖学术机构合作完成,第一作者为Jiancheng Pan(清华大学、浙江工业大学),共同一作Yanxing Liu(中国科学院大学),通讯作者为Yuqian Fu(ETH Zürich、INSIT)和Xiaomeng Huang(清华大学)。其他合作者来自苏黎世联邦理工学院、保加利亚索菲亚大学等。论文预印版于2025年3月发布于arXiv,预计将发表于AAAI(Association for the Advancement of Artificial Intelligence)会议。
研究领域:该研究属于计算机视觉与遥感交叉领域,聚焦开放词汇目标检测(Open-Vocabulary Object Detection, OVD)技术在遥感影像中的应用。传统OVD模型基于自然图像训练,难以迁移至遥感场景,原因包括:
1. 领域差异:遥感影像分辨率更高、视角独特(如俯视)、语义类别差异大(如“机场跑道”在自然图像中罕见);
2. 数据匮乏:现有遥感数据集规模小、标注类别有限,缺乏支持开放词汇训练的多样性。
研究目标:提出Locate Anything on Earth(LAE)任务,旨在构建首个面向遥感的大规模开放词汇检测框架,包含数据集(LAE-1M)与模型(LAE-DINO),突破现有OVD在遥感领域的泛化瓶颈。
基于DINO(基于Transformer的检测器)架构,新增两大模块:
- 动态词汇构建(Dynamic Vocabulary Construction, DVC):每训练批次动态选择正负类别词汇(固定长度60),解决传统BERT文本编码器输入长度受限(≤256词)问题。
- 视觉引导文本提示学习(Visual-Guided Text Prompt Learning, VisGT):
- 场景特征提取:融合图像中多对象文本特征生成“场景特征”(如“飞机+车辆→机场场景”);
- 视觉-语义对齐:通过多尺度可变形自注意力(MDSA)将视觉特征映射至语义空间,增强文本提示的上下文感知能力。
- 训练目标:联合优化分类损失(Cross-Entropy)、定位损失(GIoU)和VisGT对比损失(权重β=10)。
(注:专业术语如“开放词汇目标检测(OVD)”“GIoU(Generalized Intersection over Union)”首次出现时标注英文原词,后续使用中文简称。)