分享自:

基于强化学习的灰狼优化算法在无人机路径规划中的应用

期刊:applied soft computing journalDOI:10.1016/j.asoc.2020.106099

基于强化学习的灰狼优化算法(RLGWO)在无人机三维路径规划中的应用研究

作者及机构
本研究的通讯作者为Wendong Gai(山东科技大学),合作作者包括Chengzhi Qu、Maiying Zhong和Jing Zhang(均来自山东科技大学)。研究成果发表于《Applied Soft Computing Journal》2020年第89卷,文章编号106099。


学术背景
研究领域与动机
无人机(Unmanned Aerial Vehicles, UAVs)在搜索救援、测绘、 surveillance(监视)等领域广泛应用,但其路径规划面临三维复杂环境的挑战。传统方法(如A*算法、人工势场法)存在计算复杂度高、易陷入局部最优等问题。元启发式算法(如灰狼优化算法GWO)虽具潜力,但其统一搜索行为限制了性能。为此,本研究提出一种融合强化学习(Reinforcement Learning, RL)的改进GWO算法(RLGWO),旨在解决高维路径规划中的动态适应性问题。

研究目标
1. 设计一种新型混合算法(RLGWO),结合RL的自主决策能力与GWO的群体智能。
2. 针对无人机路径规划的特殊需求,引入几何调整(Geometric Adjustment)和最优调整(Optimal Adjustment)操作,提升路径可行性与平滑性。
3. 通过三维仿真实验验证算法在复杂环境中的优越性。


研究流程与方法
1. 数学模型构建
- 威胁模型:将障碍物建模为圆柱体,规划空间划分为离散路径点,转化为2n维优化问题。
- 成本函数:综合燃料消耗(Fuel Cost)、威胁规避(Threat Cost)和路径偏差(Deviation Cost),权重参数μ₁=0.2、μ₂=0.6、μ₃=0.2。
- 约束条件:引入最大偏航角(ϕₘₐₓ)和俯仰角(θₘₐₓ)约束,确保路径可飞行性。

2. 算法设计
- 基础框架:GWO算法模拟灰狼社会等级(α/β/δ狼领导群体),RL嵌入个体决策过程。
- 四类操作
- 全局探索(Exploration):高收敛参数a_w=2,强制个体远离当前最优。
- 局部开发(Exploitation):低a_w=0.5,引导个体向α狼聚集。
- 几何调整:通过中点插值法平滑路径,公式为:
x_my(k) = (x_m(k−1) + x_m(k+1))/2
- 最优调整:基于直线路径的投影点动态更新个体位置,避免局部最优。
- 强化学习机制:每个个体独立维护Q表(4×4矩阵),通过奖励函数(式18)动态选择操作,学习率λ按余弦规律自适应衰减(式17)。

3. 路径平滑处理
采用三次B样条曲线(Cubic B-Spline Curve)对规划路径进行平滑化,保留凸包性与仿射不变性,确保无人机飞行的连续性。

4. 实验验证
- 仿真环境:设计三组不同复杂度的三维场景(威胁圆柱体数量=8),对比GWO、IGWO、MGWO、EEGWO算法。
- 评估指标:路径成本均值(Mean)、标准差(Std)、最优值(Optimal)及收敛速度。


主要结果
1. 性能对比
- 案例1:RLGWO路径成本均值(1542.4)显著低于GWO(1900.4)和EEGWO(3208.3),标准差(80.3)表明稳定性最优。
- 案例3(高复杂度):仅RLGWO能成功规划可行路径,其他算法均陷入局部最优或触碰障碍物。
2. 收敛性:RLGWO在迭代60次内达到全局最优,而GWO需680次。
3. 路径平滑性:B样条曲线处理后,路径曲率连续,满足无人机机动性约束(ϕₘₐₓ=30°、θₘₐₓ=45°)。


结论与价值
1. 科学价值
- 首次将RL与GWO结合,提出个体自适应操作切换机制,突破传统元启发式算法统一搜索行为的局限。
- 几何调整与最优调整操作针对无人机路径特性设计,为高维优化问题提供新思路。
2. 应用价值:RLGWO可扩展至其他智能体(如机器人、水下航行器)的路径规划,尤其在动态环境中表现优越。


研究亮点
1. 创新性方法
- 引入Q-learning实现个体操作动态选择,避免人工调参(如a_w固定衰减)。
- 提出“几何调整”操作,通过数学插值直接优化路径几何特性。
2. 工程适用性:算法参数少(种群规模n=10),计算复杂度O(n·d·(tₘₐₓ−t)/2),适合实时性要求较高的场景。

局限性
根据“没有免费午餐”(NFL)定理,RLGWO专为路径规划问题设计,在其他优化领域(如参数估计)可能需调整操作定义。未来将探索多智能体协同规划中的迁移应用。


:实验数据与算法代码可参考原文补充材料,仿真场景参数详见表2。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com