基于深度强化学习的时间变化洋流下水下滑翔机路径规划

分享自：
基于深度强化学习的时间变化洋流下水下滑翔机路径规划

船舶与海洋工程
地球科学
期刊:ocean engineeringDOI:10.1016/j.oceaneng.2022.112226
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的学术报告：
一、作者与发表信息
 本研究的作者包括Wei Lan、Xiang Jin、Xin Chang、Tianlin Wang、Han Zhou、Wei Tian和Lilei Zhou，分别来自大连海事大学船舶与海洋工程学院、中山大学海洋科学学院、中国船舶重工集团第714研究所、中国船舶重工集团第719研究所以及大连船舶重工集团海洋工程有限公司。该研究于2022年8月17日在线发表在期刊《Ocean Engineering》第262卷，文章编号为112226。
二、学术背景
 本研究的主要科学领域是海洋工程，特别是水下滑翔机（Underwater Glider, UG）及其编队的路径规划问题。随着水下滑翔机技术的成熟，其在环境监测、海底测绘和救援任务等领域的应用日益广泛。然而，单台滑翔机的有效载荷有限，难以应对大规模复杂任务，因此滑翔机编队成为解决这一问题的可行方案。路径规划是滑翔机编队运行的关键，传统路径规划算法如A*算法、人工势场法和快速行进法虽能计算最短路径，但缺乏灵活性，且难以适应动态海洋环境。近年来，人工智能的快速发展为路径规划问题提供了新的解决方案，特别是深度强化学习（Deep Reinforcement Learning, DRL）技术的应用。本研究的目的是通过深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）算法，解决滑翔机在时变海洋流环境中的路径规划问题，并探索滑翔机编队的路径规划策略。
三、研究流程
 本研究包括以下几个主要步骤：
 1. 问题建模：
 - 研究首先建立了滑翔机及其编队的马尔可夫决策过程（Markov Decision Process, MDP）模型，描述了滑翔机与环境之间的交互。
 - 单台滑翔机的状态空间包括位置坐标、偏航角和海洋流信息，动作空间包括距离和转向角的变化。
 - 滑翔机编队的MDP模型则进一步考虑了编队维护和编队形状变化的关键特征。
算法设计：
研究采用DDPG算法进行强化学习训练。DDPG是一种结合深度学习和确定性策略梯度的算法，适用于连续动作空间的问题。
 
针对滑翔机编队，设计了新的奖励函数，包括终端奖励、碰撞避免奖励、距离奖励、编队距离奖励和转向角奖励等，以确保编队能够高效完成任务并保持安全。
 
仿真实验：
研究在300×300像素的二维地图中进行仿真实验，模拟了时变海洋流环境。
 
实验分为单台滑翔机路径规划和滑翔机编队路径规划两部分，分别测试了算法在不同环境下的性能。
 
仿真实验中，滑翔机的速度被限制在5-7像素/单位时间，以适应其动态特性。
 
算法优化与对比：
研究对DDPG算法进行了优化，并通过与深度Q网络（Deep Q-Network, DQN）和其他传统算法（如OCI-RRT*和改进人工势场法）的对比，验证了其优越性。
 
对比指标包括路径周期数、路径长度和单位能量路径（Unit Energy Path, UEP），以评估算法的能量利用效率。
 
数据分析：
研究通过仿真实验收集了大量数据，包括滑翔机的运动轨迹、奖励函数值和算法收敛情况。
 
数据分析表明，DDPG算法在路径规划效率和能量利用方面均优于其他算法。
 
四、主要结果
 1. 单台滑翔机路径规划：
 - 仿真实验显示，DDPG算法能够在时变海洋流环境中生成无碰撞的路径，并成功引导滑翔机到达目标区域。
 - 与DQN相比，DDPG算法的收敛速度更快，且平均奖励值更高。
滑翔机编队路径规划：
在复杂环境中，DDPG算法能够灵活调整编队形状，避免碰撞并高效完成任务。
 
实验表明，滑翔机编队能够在受限环境中通过改变编队形状来避免障碍物，并在通过障碍物后重新合并编队。
 
算法对比：
与OCI-RRT*、改进人工势场法和VIN算法相比，DDPG算法在路径周期数、路径长度和单位能量路径方面均表现更优。
 
例如，DDPG算法的平均路径周期数比OCI-RRT*减少了10.23%，单位能量路径提高了6.67%。
 
五、结论
 本研究提出了一种基于DDPG算法的水下滑翔机及其编队路径规划方法，成功解决了滑翔机在时变海洋流环境中的路径规划问题。通过设计新的MDP模型和奖励函数，研究实现了滑翔机编队的高效导航和灵活编队维护。与现有算法相比，DDPG算法在路径规划效率和能量利用方面具有显著优势。该研究为滑翔机编队在复杂海洋环境中的应用提供了重要的理论支持和技术保障。
六、研究亮点
 1. 创新性：本研究首次将DDPG算法应用于水下滑翔机编队路径规划，解决了传统算法在动态海洋环境中的局限性。
 2. 实用性：通过仿真实验验证了算法在实际海洋环境中的可行性，为滑翔机编队的实际应用提供了技术支持。
 3. 高效性：DDPG算法在路径规划效率和能量利用方面均优于现有算法，具有较高的实际应用价值。
七、其他有价值的内容
 本研究还探讨了滑翔机编队在东京湾等实际海洋环境中的应用，验证了算法在不同地理环境中的适应性。此外，研究还提出了未来工作的方向，包括将实时风力和潮汐信息纳入MDP模型，进一步提高算法的鲁棒性和适应性。
以上是本研究的详细报告，希望能够为相关领域的研究者提供有价值的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问