这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于深度强化学习的水下滑翔机持续覆盖路径规划研究
1. 研究团队与发表信息
本研究由中山大学海洋科学学院的Jiayi Liu、Yao Ji、Jinxing Ba、Shuangshuang Fan(通讯作者)与大连海事大学船舶与海洋工程学院的Xiang Jin合作完成,发表于Ocean Engineering期刊2025年第336卷。论文标题为《Underwater glider persistent coverage using deep reinforcement learning for ocean observation》,聚焦海洋动态过程观测中水下滑翔机(Underwater Glider, UG)的路径规划问题。
2. 学术背景与研究目标
科学领域:本研究属于海洋工程与自主机器人协同领域,结合了深度强化学习(Deep Reinforcement Learning, DRL)与海洋环境动力学。
研究动机:传统海洋观测方法(如锚系浮标、漂流浮标)受限于覆盖范围和连续性,难以满足高时空分辨率需求。水下滑翔机虽具备长航时优势,但其路径规划易受洋流干扰,现有方法(如割草机路径Lawnmower Pattern)依赖先验环境模型且缺乏动态适应性。
核心目标:提出一种基于近端策略优化(Proximal Policy Optimization, PPO)的深度强化学习方法,实现UG在洋流干扰下的持续覆盖(Persistent Coverage),并量化覆盖性能。
3. 研究流程与方法
3.1 问题建模
- 区域离散化:将观测区域ω(30–50 km²)离散化为1 km²的网格单元,构建重访周期图(Revisit Cycle Map)M,动态更新单元覆盖状态(式1)。
- 运动学模型:简化UG为二维平面质点,其速度模型(式2-3)包含自身航速(0.2 m/s)与洋流分量(均匀流或涡旋场,式4-5)。
3.2 强化学习框架
- 马尔可夫决策过程(MDP):状态空间包括M、UG位置和航向角;动作空间为360个离散航向角(1°间隔);奖励函数(式6)融合覆盖差异项(rd)和边界惩罚项(rout),通过系数k1/k2=10平衡。
- 算法设计:采用PPO-Clip算法(算法1),结合混合神经网络(HNN)处理空间与运动特征(图3)。HNN包含卷积层(提取网格特征)、全连接层(编码运动状态)和融合模块,优于传统MLP架构(图5)。
3.3 实验设置
- 训练参数:总步数5×10⁷,通信周期Tcom=12小时,衰减因子δ=0.01(表1)。
- 性能指标:首次全覆盖效率(PM1)、最大重访周期(PM2)、全局重访周期均值(Avg)与标准差(Sd)、洋流利用率(PM3)。
4. 主要结果
4.1 静态水域验证
- 路径模式:提出的对角交错路径(DI Pattern)相比割草机路径(LM Pattern)在50 km²区域PM1提升2.53%,PM2提升85.71%,且覆盖均匀性更优(Sd降低24.85%)(图8-9)。
- 边界处理:DI通过角度调整避免越界,而LM需强制折返(图8d)。
4.2 虚拟流场测试
- 均匀流场:DI在洋流速度比η=0.5时,PM3由负转正,表明有效利用顺流(图10-11)。与经向LM相比,PM2提升50%,Avg提升29%(图11)。
- 涡旋场:DI在复杂流场中仍保持覆盖稳定性,但性能略低于均匀流(PM3=0.008)。
4.3 实际洋流应用
基于Copernicus数据库的太平洋实测数据(图12),DI在η=1的强流区域(如涡旋中心)仍能维持PM2=0.31,且洋流利用率PM3=0.008(表2),验证了方法的鲁棒性。
4.4 扩展分析
η>1时覆盖百分比下降,表明单UG在超速洋流中受限,需多机协作(图13)。
5. 结论与价值
科学价值:
- 首次将PPO-DRL应用于UG持续覆盖问题,提出动态奖励函数和HNN架构,克服了传统路径对环境模型的依赖。
- 通过重访周期图量化时空覆盖性能,为海洋观测任务提供新评估标准。
应用价值:
- 提升海洋动态过程(如中尺度涡)的观测分辨率,支持气候研究和生态监测。
- 算法可扩展至其他自主平台(如无人机)的持续监控任务。
6. 研究亮点
1. 方法创新:结合PPO与HNN,实现UG在动态洋流中的在线路径优化。
2. 性能优势:DI路径在覆盖效率和均匀性上显著优于LM模式(如PM2提升85.71%)。
3. 工程适用性:通过实际海洋数据验证,适配不同流场强度(η≤1)。
局限与展望:需扩展至三维运动模型,探索多UG协同及迁移学习以适配未知环境。
附录
- 网格尺寸选择:1 km²在计算效率与分辨率间取得平衡(图A.14)。
- 超参数调优:批量大小512+学习率0.00025为最优配置(图A.15)。
本研究为自主海洋观测提供了可扩展的智能路径规划框架,其方法学创新与实证结果对海洋工程与机器人领域具有重要参考意义。