分享自:

一种小型无人机群能量高效的协作分散避碰算法

期刊:2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

这篇文档属于类型a,即一篇报告单个原创性研究的学术论文。以下是针对该研究的详细学术报告:


无人机集群能量高效的协作式分散避撞算法(CODE)研究

一、作者、机构及发表信息

本文由Shuangyao Huang(奥塔哥大学计算学院;西交利物浦大学物联网学院)、Haibo ZhangZhiyi Huang(奥塔哥大学计算学院)合作完成,发表于2024年IEEE/RSJ智能机器人与系统国际会议(IROS),会议时间为2024年10月14日至18日,地点为阿联酋阿布扎比。

二、学术背景与目标

研究领域:多智能体强化学习(MARL, Multi-Agent Reinforcement Learning)在小型无人机(UAV)集群避撞中的应用。
研究动机:现有无人机避撞算法存在三大挑战:
1. 连续性动作空间下的低效性(如几何法、虚拟力法需离散化动作);
2. 高计算复杂度(如Shapley Q学习需阶乘级计算);
3. 缺乏群体协作机制(传统方法将其他无人机视为环境障碍)。
研究目标:提出一种新型协作式分散避撞算法CODE,通过改进信用分配机制(Credit Assignment Scheme),在保证安全性的同时优化能耗,适用于连续动作空间的小规模(≤3架)无人机集群任务。

三、研究流程与方法

1. 问题建模
- 环境模型:基于分散部分可观察马尔可夫决策过程(Dec-POMDP),定义状态空间(UAV位置、速度、目标点)、动作空间(速度方向变化,限制在±90°)和奖励函数(包含平滑轨迹奖励、碰撞惩罚及目标点到达奖励)。
- 观测设计:每架无人机观测周围物体(最多V个)的四类运动学特征(位置、速度、目标位置、原始速度),以V×4×2数组表示。

2. 算法设计(CODE核心)
- 多智能体强化学习框架
- 集中式批评家(Critic):评估全局联合动作值函数(Joint Action Value)。
- 分布式执行器(Actor):生成连续动作(速度方向调整)。
- 创新信用分配机制
- 双维度基线(Baseline):通过排除某个智能体(无人机)的动作,并随机替换为其他动作(Uniform Sampling),计算期望差值以估计其贡献。
- 计算效率优化:复杂度从Shapley Q的阶乘级(n!)降低至线性级(n×k,k为采样动作数)。

3. 实验验证
- 对比算法
- MARL基线:COMA(离散动作)、VDN(值分解)、Shapley Q学习。
- 传统方法:E2Coop(基于元启发式)。
- 测试场景
- 2U1O(2无人机+1障碍物)与3U2O(3无人机+2障碍物)。
- 奖励函数分两种:平均奖励(R_ave)最差奖励(R_min),对应不同应用需求。
- 性能指标
- 安全性(碰撞率)、能耗(轨迹平均曲率)、反应时间。

4. 数据采集与分析
- 训练阶段:记录每回合的平均奖励与标准差,最后100回合数据用于统计显著性分析。
- 部署阶段:通过100次轨迹仿真对比CODE与E2Coop的实际避障效果。

四、主要研究结果

  1. MARL算法对比

    • 收敛性与性能:CODE在所有场景中均达到最高平均奖励(如3U2O场景下R_ave=8.1630±3.5079),显著优于COMA(-2.3754±5.0504)和VDN(1.2905±4.2112)。
    • 协作能力:仅在CODE中,3U2O复杂场景下无人机能够协同避障,其他算法因信用分配缺陷导致策略发散。
  2. 与传统方法对比(E2Coop)

    • 能耗优化:CODE的轨迹平均曲率降低43.7%(75.93 vs. 134.88),反应时间快90%(0.007秒 vs. 0.48秒)。
    • 安全性:CODE的碰撞率为3%,略高于E2Coop的0%,但通过更平滑的轨迹减少了紧急机动能耗。
  3. 轨迹可视化分析

    • CODE生成的路径(图6c-d)比E2Coop(图6a-b)更短且平滑,验证了其在长期能量效率上的优势。

五、结论与价值

科学意义
- 提出首个适用于连续动作空间的无人机协作避撞信用分配机制,解决了传统MARL算法(如COMA、Shapley Q)的局限性。
- 通过双维度基线设计,首次同时考虑智能体动作重要性及其相互关系,提升策略稳定性。

应用价值
- 适用于搜救、物流等需长时间作业的小型无人机集群,延长续航时间10%-15%(通过减少冗余机动)。
- 开源代码为后续研究提供基准工具。

六、研究亮点

  1. 方法创新性

    • 新型信用分配机制无需假设值函数形式,且计算复杂度仅为O(n×k)。
    • 首次将连续动作空间MARL应用于实际无人机控制(如油门、俯仰角调节)。
  2. 实验全面性

    • 涵盖MARL与传统方法的双维度对比,验证算法在协作性、能耗、实时性上的全面优势。
  3. 工程适配性

    • 兼容消费级无人机硬件(如DJI Mavic),仅需常规LiDAR(如SICK MRS1000)与树莓派计算单元。

七、其他价值

  • 环境仿真开源:作者开发了专用Gym-like仿真平台,支持动态障碍物与多目标点任务,填补了MARL缺乏无人机专属测试环境的空白。
  • 多奖励函数设计:通过R_ave与R_min的灵活适配,可扩展至通信中继、区域覆盖等不同应用场景。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com