分享自:

基于强化学习的两阶段多无人机避碰方法研究

期刊:IEEE Robotics and Automation LettersDOI:10.1109/LRA.2020.2974648

本文档属于类型a,以下为生成的学术报告内容:


基于两阶段强化学习的多无人机避障策略研究

作者及机构
这篇研究论文由香港大学计算机科学系的Dawei Wang、Tingxiang Fan、Jia Pan(通讯作者)以及香港城市大学生物医学工程系的Tao Han合作完成,发表于2020年4月的《IEEE Robotics and Automation Letters》第5卷第2期。

学术背景
该研究属于机器人运动规划与多智能体协同控制领域。与传统地面自主车辆(AGVs)相比,无人机(UAVs)的六自由度运动特性使其在高维配置空间中的路径规划更具挑战性。此外,无人机在实际环境中面临更显著的传感器噪声和状态估计不确定性,导致传统基于完美感知假设的避障算法(如ORCA3D)难以在实际场景中应用。因此,研究团队提出了一种不依赖环境显式建模的两阶段强化学习(Reinforcement Learning, RL)方法,目标是通过局部噪声观测训练策略网络,实现鲁棒的多无人机避障。

研究流程与方法
1. 问题建模
- 将多无人机避障问题建模为部分可观测马尔可夫决策过程(POMDP),定义状态空间(包括位置、速度、目标点)、动作空间(速度控制指令)以及奖励函数。其中奖励函数包含到达目标(+20)、碰撞惩罚(-20)和路径效率奖励(基于目标距离缩短量)。

  1. 两阶段训练框架

    • 第一阶段:监督预训练
      创新性地设计了“ORCA损失函数”,强制策略网络输出符合互惠避障(Reciprocal Collision Avoidance)理论的行动。具体通过计算动作与ORCA速度障碍半平面的距离作为损失项(公式3),结合偏好速度监督,使网络参数快速收敛至理论安全区域。
    • 第二阶段:策略梯度优化
      采用深度确定性策略梯度算法(DDPG)进一步优化策略。网络架构包含256神经元的全连接输入层和5层128神经元的隐藏层(激活函数为tanh),输出三维速度指令。Critic网络则输出状态-动作价值函数。
  2. 仿真环境构建

    • 使用ROS Kinetic和Gazebo 9.0搭建多无人机仿真平台,添加高斯噪声模拟传感器不确定性(噪声水平σ∈[0,1])。实验设置了三种场景:圆形排列(Circle)、随机分布(Random)及球面分布(Ball),并对比了两种策略版本:针对已知噪声训练的Ours-S和通用噪声适应的Ours-B。
  3. 性能评估

    • 测试指标包括:成功率、额外时间/距离、平均速度。基线方法为ORCA3D(分小安全距离orca3d-s和大安全距离orca3d-l版本)以及单阶段RL(rl-only)。

主要结果
1. 训练效率
- 两阶段方法在1500步内收敛,而传统RL需3000步以上(图4)。第一阶段监督学习使平均奖励快速提升,第二阶段策略梯度优化后将性能推向更高水平。

  1. 避障性能

    • 在噪声水平σ=1的圆形场景中,Ours-S的成功率达98.3%,优于orca3d-s(89.5%)和rl-only(91.2%)。轨迹分析(图5)显示,该策略能生成对称且协作性更强的路径,平均额外距离仅1.27m(orca3d-l为2.45m)。
  2. 泛化能力

    • Ours-B在未知噪声场景中仍保持90.1%成功率,且无需调整超参数。大规模测试(200架无人机)中,其成功率较基线提升15%以上(表IV)。
  3. 噪声鲁棒性

    • 在均匀分布噪声测试中(表III),Ours-S保持93.5%成功率,证实其对非高斯噪声的适应性。

结论与价值
该研究提出了一种结合理论先验与数据驱动的混合训练范式,其核心贡献包括:
1. 方法论创新:通过ORCA损失函数引入形式化保证,解决了RL训练高方差问题。
2. 工程意义:首次实现了非完美感知下的分散式多无人机避障,且在200+智能体场景中验证了实时性。
3. 理论价值:为高维空间中的运动规划提供了可解释的神经网络优化路径。

研究亮点
1. 两阶段训练机制:通过监督学习约束策略搜索空间,显著提升RL的收敛速度和稳定性。
2. 通用噪声适应:单策略网络可处理未知噪声水平,超越需要手动调参的传统方法。
3. 大规模验证:在Gazebo中实现了当前最大规模的多无人机避障仿真实验。

其他发现
研究还揭示了传统ORCA方法在噪声环境中需要权衡安全距离与效率的局限性(表I-II),而学习型策略能自动平衡这一矛盾。未来工作将引入递归神经网络处理动态障碍物导致的振荡问题。


(报告全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com