分享自:

基于游戏数据的无人机地理定位基准:Game4Loc

期刊:the thirty-ninth aaai conference on artificial intelligence (aaai-25)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


无人机地理定位新基准:基于游戏数据的GTA-UAV数据集与加权对比学习方法

作者与机构
本研究由厦门大学人工智能研究院的Yuxiang Ji、Boyong He、Zhuoyue Tan以及厦门大学航空航天学院的Liaoni Wu共同完成,通讯作者为Liaoni Wu。论文发表于2025年Association for the Advancement of Artificial Intelligence(AAAI)会议。

学术背景
无人机视觉地理定位(vision-based UAV geo-localization)是卫星导航系统(GNSS)失效时的备用定位技术,其核心任务是通过无人机视角图像与地理标记的卫星图像库匹配,实现位置检索。然而,现有数据集存在两大局限:
1. 数据获取成本高:真实无人机图像受隐私和飞行成本限制,多依赖Google Earth模拟,覆盖场景和飞行参数(高度、角度)有限;
2. 假设不现实:现有研究假设无人机图像与卫星图像存在完美一对一匹配(perfect one-to-one matching),而实际场景中多为部分匹配(partial matching)。

为此,本研究提出GTA-UAV数据集,基于游戏《Grand Theft Auto V》(GTAV)构建大规模连续区域仿真数据,涵盖多高度(80m–650m)、多角度(俯仰角θ∈[-100°, -80°])、多场景(城市、山地等),并首次引入部分匹配任务范式。同时,作者提出加权对比学习算法Weighted-InfoNCE,以解决部分匹配场景下的模型训练难题。

研究流程与方法
1. 数据集构建
- 数据采集:在GTAV中模拟无人机飞行,采集33,763张无人机视角图像,覆盖81.3km²游戏地图,包含城市、沙漠等6类场景。每张图像标注GPS坐标、飞行高度、相机姿态(横滚ϕ、俯仰θ、偏航ψ)。
- 卫星图像处理:将地图划分为8层金字塔瓦片(zoom levels 4–7),分辨率0.27m–0.2m,共14,640张256×256卫星图像。
- 配对策略:计算无人机图像与卫星图像的覆盖区域交并比(Intersection over Union, IoU),定义IoU>0.39为正样本对(positive pairs),0.14

  1. 算法设计

    • 基准框架:采用共享权重的Vision Transformer(ViT)作为编码器,输出全局平均池化特征,避免复杂后处理。
    • 加权对比学习(Weighted-InfoNCE)
      • 将IoU转化为权重系数α_q=σ(k·IoU),k为超参数(默认5),控制对部分匹配的敏感度。
      • 损失函数融合标准InfoNCE与均匀分布损失,公式为:
        $$L_{weighted-InfoNCE} = αq L{InfoNCE} + (1-αq)L{uniform-InfoNCE}$$
    • 互斥采样(Mutually Exclusive Sampling):通过图论方法避免同一批次中出现关联样本,确保负样本有效性。
  2. 实验验证

    • 评估指标:检索性能(Recall@K、AP)、定位精度(SDM@3、距离误差Dis@1)。
    • 对比实验
      • 训练方法对比:Weighted-InfoNCE在跨区域(cross-area)任务中,比传统InfoNCE的R@1提升20.08%,Dis@1减少234.36m。
      • 数据集迁移性:在真实数据集UAV-VisLoc上,GTA-UAV预训练模型的Dis@1误差(122.87m)显著低于其他数据集(如DenseUAV的139.34m)。
    • 消融实验:验证超参数k=5时效果最优;ViT架构在跨区域任务中优于ResNet和ConvNeXt。

主要结果
1. 部分匹配任务的有效性:GTA-UAV在相同区域(same-area)任务中达到R@1=84.95%、Dis@1=149.07m,证明部分匹配范式更贴近实际场景需求。
2. 算法优势:Weighted-InfoNCE通过权重调节,使模型能区分不同匹配程度的样本,半正样本的引入进一步提升定位精度(SDM@3提高4.82%)。
3. 泛化能力:在零样本(zero-shot)迁移至UAV-VisLoc时,GTA-UAV预训练模型的R@1(24.94%)超过其他数据集6.15%,凸显仿真数据的多样性价值。

结论与价值
1. 科学价值
- 提出首个面向部分匹配的无人机地理定位基准,填补理论与实际应用的鸿沟。
- 加权对比学习为不完美配对数据提供通用训练框架,可扩展至其他跨模态任务。
2. 应用价值
- GTA-UAV的低成本仿真方法为无人机定位算法开发提供大规模数据支持。
- 在GNSS拒止环境中(如城市峡谷、军事任务),该技术可增强无人机自主性。

研究亮点
1. 数据创新:首次利用游戏引擎构建多参数、多场景的连续区域数据集,突破真实数据限制。
2. 任务创新:将完美匹配扩展为部分匹配,定义正/半正样本对,更符合实际检索逻辑。
3. 算法创新:Weighted-InfoNCE通过IoU权重动态调整损失函数,避免传统对比学习对部分匹配的偏见。

其他发现
- 实验表明,无人机视角与卫星视角的几何对齐并非必要前提,模型可通过语义特征实现跨视角匹配,为后续研究提供新方向。
- 论文开源项目页(https://yux1angji.github.io/game4loc/)提供数据集与代码,推动领域复现与改进。


该报告全面覆盖了研究的背景、方法、结果与创新点,突出了其在无人机地理定位领域的突破性贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com