这篇文档属于类型a,即一篇报告单个原创性研究的学术论文。以下是针对该研究的详细学术报告:
本文由Shuangyao Huang(奥塔哥大学计算学院;西交利物浦大学物联网学院)、Haibo Zhang与Zhiyi Huang(奥塔哥大学计算学院)合作完成,发表于2024年IEEE/RSJ智能机器人与系统国际会议(IROS),会议时间为2024年10月14日至18日,地点为阿联酋阿布扎比。
研究领域:多智能体强化学习(MARL, Multi-Agent Reinforcement Learning)在小型无人机(UAV)集群避撞中的应用。
研究动机:现有无人机避撞算法存在三大挑战:
1. 连续性动作空间下的低效性(如几何法、虚拟力法需离散化动作);
2. 高计算复杂度(如Shapley Q学习需阶乘级计算);
3. 缺乏群体协作机制(传统方法将其他无人机视为环境障碍)。
研究目标:提出一种新型协作式分散避撞算法CODE,通过改进信用分配机制(Credit Assignment Scheme),在保证安全性的同时优化能耗,适用于连续动作空间的小规模(≤3架)无人机集群任务。
1. 问题建模
- 环境模型:基于分散部分可观察马尔可夫决策过程(Dec-POMDP),定义状态空间(UAV位置、速度、目标点)、动作空间(速度方向变化,限制在±90°)和奖励函数(包含平滑轨迹奖励、碰撞惩罚及目标点到达奖励)。
- 观测设计:每架无人机观测周围物体(最多V个)的四类运动学特征(位置、速度、目标位置、原始速度),以V×4×2数组表示。
2. 算法设计(CODE核心)
- 多智能体强化学习框架:
- 集中式批评家(Critic):评估全局联合动作值函数(Joint Action Value)。
- 分布式执行器(Actor):生成连续动作(速度方向调整)。
- 创新信用分配机制:
- 双维度基线(Baseline):通过排除某个智能体(无人机)的动作,并随机替换为其他动作(Uniform Sampling),计算期望差值以估计其贡献。
- 计算效率优化:复杂度从Shapley Q的阶乘级(n!)降低至线性级(n×k,k为采样动作数)。
3. 实验验证
- 对比算法:
- MARL基线:COMA(离散动作)、VDN(值分解)、Shapley Q学习。
- 传统方法:E2Coop(基于元启发式)。
- 测试场景:
- 2U1O(2无人机+1障碍物)与3U2O(3无人机+2障碍物)。
- 奖励函数分两种:平均奖励(R_ave)和最差奖励(R_min),对应不同应用需求。
- 性能指标:
- 安全性(碰撞率)、能耗(轨迹平均曲率)、反应时间。
4. 数据采集与分析
- 训练阶段:记录每回合的平均奖励与标准差,最后100回合数据用于统计显著性分析。
- 部署阶段:通过100次轨迹仿真对比CODE与E2Coop的实际避障效果。
MARL算法对比
与传统方法对比(E2Coop)
轨迹可视化分析
科学意义:
- 提出首个适用于连续动作空间的无人机协作避撞信用分配机制,解决了传统MARL算法(如COMA、Shapley Q)的局限性。
- 通过双维度基线设计,首次同时考虑智能体动作重要性及其相互关系,提升策略稳定性。
应用价值:
- 适用于搜救、物流等需长时间作业的小型无人机集群,延长续航时间10%-15%(通过减少冗余机动)。
- 开源代码为后续研究提供基准工具。
方法创新性:
实验全面性:
工程适配性: