本研究题为“UAV Swarm Cooperative Target Search: A Multi-Agent Reinforcement Learning Approach”,由Yukai Hou, Jin Zhao, Rongqing Zhang, Xiang Cheng, 和 Liuqing Yang联合完成,研究所属机构分别为同济大学、北京大学、香港科技大学(广州)等。论文发表在《IEEE Transactions on Intelligent Vehicles》期刊,2024年1月刊(Vol. 9, No. 1)。
本文聚焦于无人机(Unmanned Aerial Vehicles, UAV)集群技术的发展,具体探讨了多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术在大规模复杂搜索场景中的应用,旨在提升无人机集群协作搜索的效率与扩展性。该研究通过建模多目标搜索任务的马尔科夫决策过程(Markov Decision Process, MDP),提出了一种基于多智能体深度确定性政策梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)的分布式协作搜索算法,在复杂场景中展示了显著的性能优势。
随着机器学习和人工智能技术的快速发展,无人机的智能性和自主性已显著提高,这使得其在搜索、救援、农业监测和城市规划等领域中出现了广泛应用。相比传统的搜索方法,多无人机协作搜索(UAV Swarm)能够显著缩短搜索时间,并适应复杂和危险的未知环境,例如洞穴、森林和海洋。
然而,现有集中式搜索方法面临显著挑战:一方面,在大型场景中集中控制会造成信息收集滞后和系统瓶颈;另一方面,分布式方法尽管提高了可靠性和扩展性,但仍需针对复杂环境设计优化的协作策略。此外,在大规模搜索场景中,传统搜索算法难以高效处理状态和动作空间的组合爆炸问题。基于此,本文提出了一种适应于复杂大规模场景的新型分布式协作搜索方法,采用MARL技术优化多无人机系统的搜索效率与可靠性。
研究整体设计主要包括以下几个关键环节: 1. 搜索任务的建模:基于马尔科夫决策过程(MDP)对搜索任务建模,定义状态、动作和奖励函数。 2. 搜索算法设计:采用MADDPG算法设计无人机集群的分布式搜索模型,同时对其网络结构进行优化,引入卷积神经网络(Convolutional Neural Network, CNN)处理高维搜索地图数据。 3. 实验验证:通过仿真实验对比不同算法性能,验证所提方法的有效性。
环境建模:搜索区域E根据空间特性被划分为大小为Dx×Dy的网格,每个网格单元表示一个检测范围。每个网格单元的状态由S(x, y)∈{0,1}表示,S=1表示有目标存在,S=0表示为空。初始时,目标分布未知,网格单元的目标概率通过贝叶斯更新逐步修正。
无人机移动模型:假定无人机为固定翼飞行器(fixed-wing UAV),具有有限的移动方向选择。每个时间步中,无人机可选择向前直行或向左/右偏转固定角度。
搜索问题的优化建模:目标是最短时间内覆盖未知区域并找到所有目标,优化函数J(t)包括目标搜索效用(Jt(t))和环境搜索效用(Je(t)),通过加权系数结合优化搜索路径。
MADDPG是基于中心化学习、分布式执行的强化学习算法,其训练阶段采用Actor-Critic架构,每个智能体拥有独立的演员网络,同时通过中心化的评价网络融合全局信息。具体创新点包括: 1. 演员网络 (Actor Network):用于决策动作,优化性能基于奖励反向传播。 2. 评价网络 (Critic Network):计算多智能体环境中的Q值,提供动作与状态的价值评估。 3. 数据处理:利用卷积神经网络(CNN)处理高维网格地图数据,避免传统MLP(多层感知机)模型的结构信息损失,从而提升路径规划效果。
在每个时间步,所有无人机基于观测状态选择动作,同时环境根据各无人机行为反馈奖励值。历史样本保存在重放缓冲区(Replay Buffer),供后续训练使用。通过软更新方法维护目标网络,保证训练收敛的稳定性。
本文通过以下实验验证所提算法的性能:
奖励函数收敛性能: 随着训练迭代次数增加,MADDPG算法的总奖励值显著收敛,表现出比基于DQN的搜索方法更高的学习效率。这主要得益于MADDPG的协作机制,在搜索过程中避免了无人机间的路径冲突和多余搜索。
覆盖率(Coverage Rate)比较: 与基准算法(DQN和ACO)相比,MADDPG算法在相同步数下覆盖了更多未知区域。在初始探索阶段,三种算法表现相似;随着搜索步骤增加,MADDPG的协作机制使得无人机能够合理分工,覆盖更多独立区域,减少路径重叠。
重复访问率(Repetition Rate): MADDPG搜索方法有效降低了重复访问率,从而显著提升了搜索效率。实验表明,其协作机制允许无人机避开已被其他无人机探索的区域。
目标发现数量: 在目标总数为20的场景下,与其他算法相比,MADDPG方法更早找到目标并满足停止条件。MADDPG不仅加快了目标发现速率,还减少了总搜索步数,从而确认其更高效的搜索性能。
搜索任务完成率: 对不同数量目标的仿真实验表明,MADDPG算法在所有实验场景中均完成了100%的目标搜索,且平均消耗步数低于其他方法。
多智能体扩展性测试: 在无人机数量分别为3、5和10的实验条件下,MADDPG均表现出更快的任务完成时间,验证了其良好的扩展性。
本文在无人机集群协作搜索领域作出了以下贡献: 1. 提出了一种基于MARL的分布式搜索框架,结合MADDPG算法与CNN网络模型,实现了高维搜索场景的有效路径规划。 2. 解决了大规模搜索场景中信息更新与协作控制的挑战,使无人机集群能够高效分工,减少通信与计算资源消耗。 3. 提升了目标发现速率与搜索效率,降低了探索任务的冗余性,为实际场景应用提供了理论依据。
本文的研究成果不仅在搜索与救援任务中具有广阔应用前景,还为复杂环境中的协同优化算法设计提供了技术支持和方法参考。