本文的作者是谷美颖、李航、张家伟、百晓、郑锦,他们主要来自北京航空航天大学计算机学院和北京航空航天大学江西研究院。这篇题为“基于视觉的无人机定位与导航方法研究综述”(A review of vision-based UAV localization and navigation methods)的论文发表在2025年3月的《电子学报》(Acta Electronica Sinica)第53卷第3期上。这是一篇综述文章,旨在系统地梳理和分析基于视觉的无人机(Unmanned Aerial Vehicle, UAV)定位与导航领域的研究现状、主要方法、核心挑战及未来发展趋势。
论文开篇即指出了无人机在农业、消防、测绘、航拍及娱乐等众多领域应用日益广泛。然而,无人机自主飞行的核心技术——精准的自我定位与导航——高度依赖于全球导航卫星系统(Global Navigation Satellite System, GNSS)。GNSS在复杂环境(如城市峡谷、室内、森林)中存在非视距接收、多路径效应和欺骗信号等多种缺陷,导致其信号不可靠甚至完全失效。因此,发展能够补充或取代GNSS的定位导航方法成为迫切需求。基于视觉的方法利用无人机搭载的视觉传感器(如摄像头)感知环境,实现自主定位与导航,被视为解决GNSS拒止环境下无人机自主飞行问题的关键途径。本文的贡献在于,首次系统性地综述了兼顾视觉定位与导航两大关键技术的最新研究进展,特别聚焦于近年来基于深度学习的方法,并对该领域的公开数据集、评价指标、技术优缺点及未来挑战进行了全面总结与分析。
本文的主体内容围绕两大核心技术展开:无人机视觉定位与无人机视觉导航。作者首先对这两大类方法进行了清晰的分类阐述。
在无人机视觉定位部分,论文指出其主要目标是将无人机当前捕获的视图(航拍图)与预先建立的视觉参考数据库(如卫星地图、正射影像或历史航拍图)进行匹配,从而确定无人机的位置。作者将现有方法分为两大类:图像检索方法和图像匹配方法。图像检索方法的核心思想是将无人机拍摄的查询图像与带有位置标签的卫星地图数据库进行比较,通过计算内容特征(如颜色、纹理、形状或其高级语义特征)的相似度,检索出最匹配的参考图像,进而获得无人机的粗略位置估计。这类方法适用于大范围、具有明显地标的场景。论文进一步将此类方法细分为传统图像检索方法和深度学习图像检索方法。传统方法主要依赖于手工设计的特征(如归一化互相关、相位相关、互信息)和优化算法(如粒子滤波、L-BFGS),虽然在特定条件下有效,但对光照变化、视角差异和环境动态性的鲁棒性不足。相比之下,深度学习方法(如基于卷积神经网络CNN、Transformer的模型)能够自动学习更具判别力和鲁棒性的高层次特征,显著提升了跨视角(无人机视图与卫星视图)匹配的准确性。论文详细介绍了多个代表性工作,例如Zheng等人提出的University-1652数据集及基线模型,该数据集首次系统地提供了大学建筑的无人机视图、卫星视图和地面视图,推动了跨视图地理定位研究。此外,Dai等人的FSRA方法利用Transformer划分和对齐图像区域,Chen等人的SDPL方法采用移位密集分区策略,都致力于解决目标位置偏移和尺度变化带来的匹配难题。Wang等人提出的MUSE-Net则专门针对不同天气环境下的域自适应问题,增强了模型的泛化能力。图像匹配方法则更注重精确的像素级或特征级对应,通过直接匹配无人机图像与参考图像的特征点来推算相对或绝对位姿,通常能提供比图像检索更高的定位精度。这类方法同样可分为传统特征点匹配和深度学习图像匹配。传统方法依赖SIFT、SURF、ORB等经典特征检测与描述符,结合RANSAC等算法剔除误匹配,其性能受图像质量、视角和光照影响较大。深度学习方法则利用神经网络(如SuperGlue)进行更鲁棒的特征匹配,或设计多任务网络(如同时进行语义分割和位置回归)来提升定位的准确性和效率。例如,Gurgu等人将SIFT特征提取与SuperGlue深度学习匹配结合,实现了长距离高空飞行的精确定位;Li等人提出的GLVL网络采用“全局检索+细粒度匹配”的两阶段策略,兼顾了定位的实时性与精确性。
在无人机视觉导航部分,论文阐述在获得自身位置的基础上,无人机如何利用视觉信息进行安全、自主的飞行,主要包括障碍物检测与规避以及路径规划两大功能。根据导航功能的不同,论文将方法分为障碍物检测与规避方法、路径规划方法。障碍物检测与规避方法确保无人机能够实时感知并避开飞行路径上的障碍物。论文提到的方法包括基于光流的方法(通过计算图像序列中像素的运动来感知障碍物相对运动)、基于深度学习的方法(如YOLO系列、SSD等目标检测网络直接识别障碍物)以及基于SLAM的方法(在定位的同时构建包含障碍物的环境地图)。这些方法各有优劣,例如光流法计算效率高但对纹理要求高,深度学习方法识别精度高但计算开销大。路径规划方法则负责为无人机计算从起点到目标点的最优或可行飞行轨迹。论文将其分为全局路径规划(在已知全局地图信息下进行离线规划,如A*算法、Dijkstra算法)和局部路径规划(基于实时传感器信息在线调整路径以应对未知障碍,如动态窗口法DWA、人工势场法)。近年来,基于深度强化学习(Deep Reinforcement Learning, DRL)的路径规划方法受到广泛关注,它通过智能体与环境的交互学习最优导航策略,在处理复杂、动态环境方面展现出巨大潜力。
为了清晰地对比不同领域的研究工作,论文在阐述各类方法时,均附有详细的对比表格(如表2、表3),从方法类别、核心算法、鲁棒性(光照、动态适应性)和适用场景等多个维度进行了系统梳理,为读者提供了直观的参考。
在全面综述现有方法之后,论文深入探讨了基于视觉的无人机定位与导航技术面临的核心挑战与未来方向。这些挑战包括:1. 公开可用数据集的缺乏与多样性不足:现有数据集(如University-1652, SUES-200)在场景类型、天气条件、飞行高度变化等方面仍不够丰富,限制了模型的泛化能力。2. 硬件加速与实时性要求:复杂的深度学习模型需要强大的计算资源,与无人机机载设备有限的计算能力和功耗预算存在矛盾,需要设计轻量高效的算法或专用硬件加速。3. 环境复杂性:如何处理极端光照(低光、强光)、恶劣天气(雨、雾)、动态物体(行人、车辆)以及高度重复或纹理稀疏的场景,仍然是技术难点。4. 能源限制:视觉传感器的持续工作和复杂算法的运行会快速消耗无人机有限的电池电量。5. 模拟器到真实世界的泛化差距:在模拟环境中训练的策略或模型,迁移到真实世界时性能往往会下降,如何缩小这一差距是关键问题。
本文的重要意义与价值在于,它不仅仅是对已有文献的简单罗列,而是进行了一次系统性的整合与深入的分析。首先,它明确指出了当前研究从依赖GNSS向多传感器融合、特别是视觉主导的自主系统演进的大趋势。其次,通过将定位与导航技术结合综述,揭示了二者作为自主飞行闭环中紧密相连环节的内在联系。第三,论文特别强调了深度学习技术对该领域的革命性影响,并详细梳理了其在图像检索、特征匹配、避障和路径规划等子任务中的最新应用,为研究者提供了清晰的技术演进图谱。第四,论文对公开数据集、评价指标的总结,以及对各类方法优缺点、适用场景的对比分析,为后续研究者选择研究方向、设计实验和评估算法性能提供了宝贵的参考依据。最后,论文提出的挑战与未来方向,精准地指出了当前技术的瓶颈,为未来的研究指明了重点攻关领域,例如开发更丰富多样的数据集、设计兼顾精度与效率的轻量级模型、提升算法在极端条件下的鲁棒性、以及探索更有效的仿真到实物的迁移学习方法等。
这篇由北京航空航天大学团队撰写的综述论文,以其全面的视角、清晰的脉络、深入的剖析和前瞻性的思考,为基于视觉的无人机自主定位与导航领域提供了一份高质量的研究指南和路线图。它不仅有助于该领域的新进入者快速建立知识体系,也为资深研究者梳理了技术发展脉络并指明了未来创新的潜在方向,对该学术领域的持续发展具有重要的参考价值和推动作用。