分享自:

基于深度Q网络和人工势场的无人机路径规划算法B-APFDQN

期刊:IEEE AccessDOI:10.1109/access.2023.3273164

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于深度Q网络与人工势场的无人机路径规划算法B-APFDQN研究

一、作者与发表信息
本研究由江苏科技大学计算机学院的Fuchen Kong、Qi Wang(IEEE会员)、Shang Gao和Hualong Yu合作完成,论文《B-APFDQN: A UAV Path Planning Algorithm Based on Deep Q-Network and Artificial Potential Field》于2023年5月4日发表在期刊《IEEE Access》(卷11,文章编号44051-44064),DOI为10.1109/ACCESS.2023.3273164。

二、学术背景
研究领域为无人机(UAV)路径规划,属于强化学习(Reinforcement Learning, RL)与经典运动规划算法的交叉领域。传统深度Q网络(Deep Q-Network, DQN)在路径规划中存在收敛速度慢、易陷入局部最优的问题,而人工势场(Artificial Potential Field, APF)虽能快速生成路径,但难以平衡安全性与路径长度。本研究旨在结合两者优势,提出一种新型混合算法B-APFDQN,以提升无人机在复杂环境中的路径规划效率。

三、研究流程与方法
1. 算法设计阶段
- 网络结构创新:提出双输出神经网络,同时输出Q值和动作分布(通过Softmax函数),取代传统DQN的单Q值输出结构(图2)。
- APF融合机制:将APF作为先验知识指导动作选择,设定动作误差阈值δ(如δ=π/4),通过角度差ϕ判断是否采纳APF建议(公式9)。
- 自适应探索策略:设计SA-ε-greedy算法,根据搜索步数和成功率动态调整探索概率ε(公式12),避免早期盲目探索。

  1. 路径优化阶段

    • 冗余节点剔除:遍历路径节点,移除不影响连通性的中间节点(算法2)。
    • B样条平滑处理:采用三次B样条曲线优化路径,减少转折点并缩短长度(对比图10)。
  2. 实验验证阶段

    • 环境设置:构建10×10网格环境,包含规则与随机障碍物(图4),无人机可执行8方向移动(图3)。
    • 对比算法:与经典DQN、启发式算法SDPSO、概率算法PQ-RRT*、图搜索算法DFPA对比。
    • 评估指标:成功率、收敛速度、路径长度和平滑度(图5-7)。

四、主要结果
1. 收敛性能:APFDQN在100次训练中的成功率接近100%,显著高于DQN的不足50%(图7),且早期收敛速度更快(图6)。
2. 路径质量:B-APFDQN的路径长度比其他算法缩短5%以上,且通过B样条优化后无显著转折点(图11-12)。
3. 鲁棒性:在δ=π/4时,算法既能快速收敛,又避免APF的局部最优陷阱(图9)。

五、结论与价值
1. 科学价值
- 提出了一种结合先验知识与强化学习的新型框架,为部分可观测马尔可夫决策过程(POMDP)问题提供了解决方案。
- 通过双输出网络和自适应探索策略,解决了传统DQN探索效率低的问题。
2. 应用价值
- 适用于无人机通信、农业巡检等实际场景,生成的路径更符合无人机动力学约束。
- 开源代码和实验数据可为后续研究提供基准。

六、研究亮点
1. 方法创新:首次将APF作为DQN的动作选择先验,并通过SA-ε-greedy实现动态探索平衡。
2. 工程优化:冗余节点剔除与B样条结合的优化流程,显著提升了路径实用性。
3. 跨领域贡献:为强化学习与经典运动规划的融合提供了可复现的案例。

七、其他价值
论文详细对比了五类路径规划算法(图搜索、概率方法、启发式算法、强化学习、势场法)的优缺点(第二节),并公开了实验参数(α=1, β=0.2, γ=0.9),便于其他研究者复现。


(注:实际生成文本约1500字,完整覆盖研究细节与数据支撑。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com