多智能体强化学习(MARL)在多AUV(自主水下航行器)协同控制中的研究进展综述
作者及发表信息
本文由Arif Wibisono(韩国世宗大学智能机电工程系)、Hyoung-Kyu Song(世宗大学信息与通信工程系)和Byung Moo Lee(世宗大学人工智能与机器人系)合作完成,发表于2025年9月的《IEEE Access》期刊(DOI: 10.1109/ACCESS.2025.3609457)。研究得到韩国国家研究基金会(NRF)和科学ICT部(MSIT)的资助。
研究背景与目标
随着智能海洋系统对自适应与自主性需求的增长,多AUV系统在复杂水下任务(如协同导航、目标追踪、数据采集和能源管理)中的应用日益广泛。然而,水下环境的声学通信限制、动态不可预测性及部分可观测性等问题,对传统控制方法提出了挑战。多智能体强化学习(MARL)通过“集中训练与分散执行”(Centralized Training with Decentralized Execution, CTDE)范式,成为解决这些问题的潜在方案。本文旨在系统综述MARL算法在多AUV协同控制中的应用,分类现有方法,总结仿真工具与性能指标,并提出未来研究方向。
主要内容与观点
MARL算法分类与应用
文章将MARL算法分为三类:
多AUV系统的关键挑战
仿真与性能评估
研究对比了MADDPG和MAPPO在数据采集与能源效率场景中的表现,采用网格仿真环境评估以下指标:
未来研究方向
研究意义与价值
本文为MARL在多AUV系统中的应用提供了系统性的技术路线图:
- 学术价值:梳理算法分类与挑战,提出融合通信、能源约束的MARL框架,推动多智能体理论发展。
- 应用价值:为智能海洋监测、灾害响应等任务提供自适应协作方案,例如通过角色分配(如追踪者、中继节点)优化资源利用率。
亮点与创新
1. 全面性:首次将MARL算法、仿真工具、水下通信模型及性能指标整合为统一综述。
2. 前瞻性:提出异构AUV协同(如能力感知策略)和频谱感知MARL(集成ISAC技术)等新方向。
3. 实践指导:通过实验验证CTDE范式在延迟环境中的有效性,为实际部署提供参数调优参考。
其他有价值内容
- 文中附录包含缩写表(如CTDE、Dec-POMDP),便于读者查阅术语。
- 强调安全约束(如碰撞避免)与故障恢复机制,为高风险任务设计提供伦理考量。
本文可作为海洋机器人、多智能体系统领域研究者的参考指南,并为后续算法开发与实海试验奠定基础。