一种小型无人机群能量高效的协作分散避碰算法

分享自：
一种小型无人机群能量高效的协作分散避碰算法

航空航天工程
人工智能
工程学
信息科学
计算机科学
期刊:2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即一篇报告单个原创性研究的学术论文。以下是针对该研究的详细学术报告：
无人机集群能量高效的协作式分散避撞算法（CODE）研究一、作者、机构及发表信息本文由Shuangyao Huang（奥塔哥大学计算学院；西交利物浦大学物联网学院）、Haibo Zhang与Zhiyi Huang（奥塔哥大学计算学院）合作完成，发表于2024年IEEE/RSJ智能机器人与系统国际会议（IROS），会议时间为2024年10月14日至18日，地点为阿联酋阿布扎比。
二、学术背景与目标研究领域：多智能体强化学习（MARL, Multi-Agent Reinforcement Learning）在小型无人机（UAV）集群避撞中的应用。
 研究动机：现有无人机避撞算法存在三大挑战：
 1. 连续性动作空间下的低效性（如几何法、虚拟力法需离散化动作）；
 2. 高计算复杂度（如Shapley Q学习需阶乘级计算）；
 3. 缺乏群体协作机制（传统方法将其他无人机视为环境障碍）。
 研究目标：提出一种新型协作式分散避撞算法CODE，通过改进信用分配机制（Credit Assignment Scheme），在保证安全性的同时优化能耗，适用于连续动作空间的小规模（≤3架）无人机集群任务。
三、研究流程与方法1. 问题建模
 - 环境模型：基于分散部分可观察马尔可夫决策过程（Dec-POMDP），定义状态空间（UAV位置、速度、目标点）、动作空间（速度方向变化，限制在±90°）和奖励函数（包含平滑轨迹奖励、碰撞惩罚及目标点到达奖励）。
 - 观测设计：每架无人机观测周围物体（最多V个）的四类运动学特征（位置、速度、目标位置、原始速度），以V×4×2数组表示。
2. 算法设计（CODE核心）
 - 多智能体强化学习框架：
 - 集中式批评家（Critic）：评估全局联合动作值函数（Joint Action Value）。
 - 分布式执行器（Actor）：生成连续动作（速度方向调整）。
 - 创新信用分配机制：
 - 双维度基线（Baseline）：通过排除某个智能体（无人机）的动作，并随机替换为其他动作（Uniform Sampling），计算期望差值以估计其贡献。
 - 计算效率优化：复杂度从Shapley Q的阶乘级（n!）降低至线性级（n×k，k为采样动作数）。
3. 实验验证
 - 对比算法：
 - MARL基线：COMA（离散动作）、VDN（值分解）、Shapley Q学习。
 - 传统方法：E2Coop（基于元启发式）。
 - 测试场景：
 - 2U1O（2无人机+1障碍物）与3U2O（3无人机+2障碍物）。
 - 奖励函数分两种：平均奖励（R_ave）和最差奖励（R_min），对应不同应用需求。
 - 性能指标：
 - 安全性（碰撞率）、能耗（轨迹平均曲率）、反应时间。
4. 数据采集与分析
 - 训练阶段：记录每回合的平均奖励与标准差，最后100回合数据用于统计显著性分析。
 - 部署阶段：通过100次轨迹仿真对比CODE与E2Coop的实际避障效果。
四、主要研究结果MARL算法对比
收敛性与性能：CODE在所有场景中均达到最高平均奖励（如3U2O场景下R_ave=8.1630±3.5079），显著优于COMA（-2.3754±5.0504）和VDN（1.2905±4.2112）。
 
协作能力：仅在CODE中，3U2O复杂场景下无人机能够协同避障，其他算法因信用分配缺陷导致策略发散。
 
与传统方法对比（E2Coop）
能耗优化：CODE的轨迹平均曲率降低43.7%（75.93 vs. 134.88），反应时间快90%（0.007秒 vs. 0.48秒）。
 
安全性：CODE的碰撞率为3%，略高于E2Coop的0%，但通过更平滑的轨迹减少了紧急机动能耗。
 
轨迹可视化分析
CODE生成的路径（图6c-d）比E2Coop（图6a-b）更短且平滑，验证了其在长期能量效率上的优势。
五、结论与价值科学意义：
 - 提出首个适用于连续动作空间的无人机协作避撞信用分配机制，解决了传统MARL算法（如COMA、Shapley Q）的局限性。
 - 通过双维度基线设计，首次同时考虑智能体动作重要性及其相互关系，提升策略稳定性。
应用价值：
 - 适用于搜救、物流等需长时间作业的小型无人机集群，延长续航时间10%-15%（通过减少冗余机动）。
 - 开源代码为后续研究提供基准工具。
六、研究亮点方法创新性：
新型信用分配机制无需假设值函数形式，且计算复杂度仅为O(n×k)。
 
首次将连续动作空间MARL应用于实际无人机控制（如油门、俯仰角调节）。
 
实验全面性：
涵盖MARL与传统方法的双维度对比，验证算法在协作性、能耗、实时性上的全面优势。
 
工程适配性：
兼容消费级无人机硬件（如DJI Mavic），仅需常规LiDAR（如SICK MRS1000）与树莓派计算单元。
七、其他价值环境仿真开源：作者开发了专用Gym-like仿真平台，支持动态障碍物与多目标点任务，填补了MARL缺乏无人机专属测试环境的空白。
 
多奖励函数设计：通过R_ave与R_min的灵活适配，可扩展至通信中继、区域覆盖等不同应用场景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问