分享自:

基于深度强化学习的无人机地面目标跟踪路径规划

期刊:IEEE AccessDOI:10.1109/access.2020.2971780

这篇文档属于类型a,即报告了一项原创研究的学术论文。以下是根据要求生成的学术报告:


作者及研究机构
本文的主要作者是Bohao Li和Yunjie Wu,他们来自北京航空航天大学的虚拟现实技术与系统国家重点实验室、自动化科学与电气工程学院以及飞行器控制实验室。该研究于2020年2月5日发表在期刊《IEEE Access》上,DOI为10.1109/ACCESS.2020.2971780。

学术背景
本研究的主要科学领域是无人机(UAV)路径规划与目标跟踪,结合了深度强化学习(Deep Reinforcement Learning, DRL)技术。无人机因其安全性高、成本低和机动性强等优势,在军事和民用领域(如侦察、打击、救援和预警等)得到广泛应用。然而,在未知环境中,无人机的高自主性在线轨迹规划,尤其是目标跟踪与避障,仍然是一个具有挑战性的问题。传统的路径规划方法通常依赖于离散空间或网格环境,难以在复杂动态环境中实现高效规划。随着人工智能技术的快速发展,深度强化学习因其卓越的环境感知和决策控制能力,成为解决这一问题的有效工具。本研究旨在通过改进深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法,提升无人机在障碍环境下的目标跟踪与避障能力。

研究目标
本研究的主要目标是开发一种基于深度强化学习的无人机目标跟踪与避障算法,具体包括:
1. 设计一种改进的DDPG算法,结合视线(Line of Sight, LOS)和人工势场(Artificial Potential Field)构建奖励函数,引导无人机行为;
2. 通过多无人机协同探索环境,提升算法的探索能力;
3. 利用长短期记忆网络(Long Short-Term Memory, LSTM)近似环境状态,提高数据利用效率;
4. 构建虚拟仿真环境,验证算法的有效性和泛化能力。

研究流程
本研究包括以下主要步骤:
1. 算法框架设计:改进DDPG算法,设计基于LSTM的Actor-Recurrent-Critic(ARC)网络结构。该框架包括环境描述模块、DRL控制模块和无人机模块。与传统DRL框架相比,本研究将特征提取功能集成到DRL控制模块中,并通过多无人机协同探索环境,提升算法的收敛速度和稳定性。
2. 奖励函数设计:构建非稀疏奖励函数,包括视线奖励(LOS reward)、障碍奖励(Obstacle reward)、终端奖励(Terminal reward)和动作惩罚(Action penalty)。视线奖励引导无人机朝向目标飞行,障碍奖励基于人工势场理论避免碰撞,终端奖励用于判断任务成功或失败,动作惩罚使轨迹更加平滑。
3. 网络训练:在虚拟仿真环境中训练改进的DDPG算法。仿真环境为一个500米×500米的二维平面,包含随机分布的静态障碍物和静止或匀速运动的目标。无人机的观测空间包括速度、方向、目标相对方位和传感器测距数据,动作空间为航向角的变化。
4. 实验验证:通过仿真实验验证算法的性能。实验设置包括无人机速度(3 m/s)、动作范围([-π/20, π/20])、采样时间间隔(1 s)等参数。训练过程中,记录每轮训练步数、累积奖励和平均奖励,并与传统DDPG算法进行对比。
5. 结果分析:分析训练过程和仿真结果,评估算法在目标跟踪和避障任务中的表现。通过轨迹图和归一化距离图展示无人机在不同环境中的跟踪效果。

主要结果
1. 训练过程:在前40轮训练中,无人机因碰撞障碍物而提前终止任务;随后,训练步数逐渐增加,表明无人机学会了避障;约70轮后,训练步数稳定在100至200之间,表明无人机能够成功接近目标。累积奖励和平均奖励逐渐增加并趋于稳定,验证了算法的有效性。
2. 算法对比:与传统DDPG算法相比,改进算法在收敛速度和稳定性上显著提升。传统DDPG算法在约130轮后收敛,且最后20轮存在较大波动,而改进算法在约70轮后即趋于稳定。
3. 仿真结果:在不同环境中,改进算法均能有效完成目标跟踪和避障任务。对于静止目标,无人机能够快速接近并围绕目标飞行;对于移动目标,无人机能够在避开障碍物的同时保持跟踪。在复杂障碍环境中,无人机虽无法完全围绕目标飞行,但仍能保持一定距离进行持续观察。

结论
本研究通过改进DDPG算法,提出了一种基于深度强化学习的无人机目标跟踪与避障方法。主要贡献包括:
1. 开发了适用于目标跟踪与避障的DRL模型;
2. 设计了基于LSTM的Critic和Actor网络,并成功训练;
3. 构建了虚拟仿真环境,验证了算法的性能和泛化能力。
研究结果表明,改进算法在训练稳定性、收敛速度和任务成功率上均优于传统DDPG算法,为无人机在复杂动态环境中的自主导航提供了有效解决方案。

研究亮点
1. 奖励函数设计:结合视线和人工势场理论,构建了非稀疏奖励函数,显著提升了算法的训练效率和任务成功率。
2. 多无人机协同探索:通过多无人机协同探索环境,提高了算法的探索能力和数据利用效率。
3. LSTM网络应用:利用LSTM网络近似环境状态,提高了算法在部分可观测环境中的表现。
4. 虚拟仿真环境:构建了高度逼真的虚拟仿真环境,为算法验证提供了可靠平台。

未来工作
尽管本研究取得了显著成果,但仍有一些改进空间:
1. 状态空间扩展:结合视觉信息,融合目标相对位置和深度图像,进一步提升算法的环境感知能力。
2. 奖励函数优化:探索更有效的奖励函数设计方法,以提高算法的训练效果。
3. 规则结合方法:将DRL与基于规则的路径规划方法结合,提升算法的稳定性和实用性。


这篇报告详细介绍了研究的背景、目标、方法、结果和意义,为相关领域的研究者提供了全面的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com