NPE-DRL: 一种用于无人机在感知受限环境下规避障碍物的非专家策略增强深度强化学习方法

基于非专家策略强化学习改进无人机视觉受限环境下的避障能力研究

近年来,无人机(Unmanned Aerial Vehicle,UAV)凭借其卓越的机动性和多样化的功能,广泛应用于包裹递送、风险评估和紧急救援等民用领域。然而,随着无人机执行任务的复杂性、范围和时长的增加,其自主导航的难度也显著上升,尤其是在拥挤且高度不确定的环境中实现避障。然而,传统的全球导航方法通常依赖全局信息,难以处理视觉受限条件下的障碍场景。本研究的目的是解决这些场景中的避障问题,提升无人机的实时导航能力。

此外,尽管基于深度强化学习(Deep Reinforcement Learning,DRL)的避障算法通过端到端处理方式表现出色,能够减小计算复杂度并提升适应性和可扩展性,但它们的采样效率偏低,需要大量的样本迭代以实现策略收敛。同时,现有的基于模仿学习的高效采样方法严重依赖离线专家示例,但在危险环境中,这种高质量数据难以获取。因此,如何在数据质量有限的条件下提升无人机的避障能力,成为一项亟待解决的科学挑战。正是在这一背景下,来自Nanyang Technological University和Nanjing University of Aeronautics and Astronautics的研究团队提出了一种基于非专家策略强化学习(Nonexpert Policy Enhanced DRL,NPE-DRL)的新型避障方法。文章发表于《IEEE Transactions on Artificial Intelligence》的2025年1月刊,作者包括Yuhang Zhang、Chao Yan、Jiaping Xiao以及Mir Feroskhan。


研究背景及问题陈述

传统的SLAM(Simultaneous Localization and Mapping,同步定位与建图)等基于特征提取的避障方法通常需要大规模的计算资源,尤其在低纹理环境中效率较低。此外,由于无人机的体积和载荷限制,诸如雷达、LiDAR和RGB-D摄像头等主动传感器在微型无人机上的应用并不适用,单目摄像头成为其首选。然而,单目摄像头在3D空间表达和障碍检测方面存在诸多局限。因此,为了提高采样效率并克服这些技术瓶颈,作者提出利用非专家示例数据指导强化学习政策的初始阶段,同时结合传统深度Q网络(Deep Q-Network,DQN)的优势,以提高避障性能。


方法概述与模型架构

整体框架与工作流程

NPE-DRL模型的核心包含两部分:1) 核心DRL算法;2) 人工设计的非专家教师(nonexpert teacher)。具体流程如下: 1. 非专家策略生成:首先利用人工势场法(Artificial Potential Field,APF)生成非专家策略,以提供初始指导。这种策略不依赖高精度的专家示例,而是提供一个启发式的避障方法,为DRL模型的初始学习和探索提供基础。 2. 学习与探索:在模型训练的早期阶段,强化学习代理主要模仿非专家策略的行为;在后期阶段,逐步过渡到自主探索环境,提升学习策略的灵活性和适应性。 3. 行为离散化:将连续动作空间映射为离散动作空间,利用模糊逻辑(Fuzzy Logic)实现,这一创新显著提高了采样效率,并缩短了策略收敛时间。

网络架构设计

为了处理单目摄像头受限视野导致的部分可观测问题,研究团队设计了一个双输入深度神经网络架构: 1. 输入包括前视摄像头捕获的RGB图像以及无人机与目标间的相对位置信息(距离与角度),图像经过尺寸标准化为224×224像素并加入高斯噪声增强系统鲁棒性。 2. 网络的编码器部分包含两层二维卷积层,用于提取图像特征,随后将处理后的特征向量与位置向量拼接,经过全连接层进行进一步处理。 3. 使用兼具Double DQN和Dueling DQN架构的模型,将状态值函数(State-Value Function)和动作优势函数(Action-Advantage Function)分开建模。这种架构有助于提升学习效率,提高对避障策略的逼近精度。


仿真与实验

仿真设置

为了验证NPE-DRL的性能,研究团队分别在简单和复杂的仿真环境中测试了算法的有效性: 1. 简单环境:包含10个直径1m、高2m的圆柱形障碍物,场地区域为30×15 m。 2. 复杂环境:包含多种尺寸的家具障碍物(0.4至2m),区域大小相同。

评价指标包括成功率、碰撞率、超时率、步数、总飞行距离和总能量消耗。训练过程中,使用Adam优化器的学习率设为0.0001,经验回放池大小设为100,000条数据,mini-batch大小为64。

仿真结果

与Baseline算法(包括Behavioral Cloning、D3QN、D3QN-LfD等)相比,NPE-DRL在成功率上显著占优,在复杂障碍密集环境中表现尤为突出(比如成功率为72%,远超D3QN的34%和D3QN-LfD的39%)。同时,仿真结果表明: 1. NPE-DRL算法在环境中能生成较平滑的轨迹,避免了大幅偏移,大大提升导航效率; 2. 相较于传统随机初始化的强化学习方法,NPE-DRL能够快速收敛(约500轮),反映出较高的样本效率。

实际物理实验

为进一步验证模型的泛化能力,作者在真实室内场景中进行了飞行实验。实验环境为8×7×4 m的飞行空间,障碍物为白色的矩形立方体,目标为标注物理标尺的箱子,无人机采用Tello EDU设备。实验通过OptiTrack运动捕捉系统实时监控无人机与目标位置,以NPE-DRL学习的策略进行控制。

实验中,无人机在60次尝试中达到81.67%的成功率,显示了算法良好的现实适应性和理论的可迁移性,尽管某些场景因硬件局限表现略低于仿真结果。


研究结论及意义

本文提出了NPE-DRL算法,为视觉受限的单目无人机提供了一种高效的避障解决方案。通过引入非专家知识指导强化学习,算法显著改善了采样效率并提升了避障能力。同时,模糊逻辑用于离散化连续动作空间的创新方法,实现了更高效的实时决策。实验结果表明,算法在不同环境中具有很强的鲁棒性和泛化能力。

研究具有以下意义: 1. 科学价值: 为无人机的视觉受限避障提供了新的理论参考; 2. 实际应用价值: 适用于复杂场景下的无人机任务,如紧急救援、快递配送等; 3. 方法亮点: 首次将非专家策略与深度强化学习无缝结合,为低质量数据条件下的学习优化提供了新思路。

未来的研究方向可能包括将NPE-DRL拓展至多智能体系统,探索无人机集群感知与协作决策的能力,以应对更富挑战性的动态环境。