分享自:

基于强化学习的水下滑翔机高精度运动控制

期刊:ocean engineeringDOI:10.1016/j.oceaneng.2024.118603

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


一、研究作者及发表信息

本研究由Rongshun Juan(天津大学电气自动化与信息工程学院)、Tianshu WangShoufu LiuYatao ZhouWei Ma(天津大学机械工程学院)、Wendong NiuZhongke Gao(通讯作者)共同完成,发表于Ocean Engineering期刊2024年第310卷,文章编号118603。

二、学术背景

研究领域:水下机器人(Underwater Glider, UG)的运动控制,属于海洋工程与强化学习(Reinforcement Learning, RL)的交叉领域。
研究动机:传统基于模型的控制方法因水下滑翔机动力学的高度非线性、耦合性及流体参数不确定性而难以适用。现有数据驱动方法(如神经网络)在精度和抗干扰能力上存在局限。
研究目标:提出一种无需依赖动力学模型的运动控制框架,通过强化学习实现高精度控制,并解决洋流干扰下的能耗问题。

三、研究流程与方法

1. 框架设计:逆向模型控制(Inverse Model Control, IMC)

  • 核心思想:以期望速度作为输入,直接输出控制变量(浮力变化ΔB、俯仰质量块位移Δ𝑙𝑝、横滚质量块旋转角Δ𝑟),绕过传统动力学建模。
  • 实现方式
    • 监督学习:采用全连接神经网络(Fully Connected Neural Network, FCNN)训练逆向模型,数据集通过仿真随机生成(10万–50万样本)。
    • 强化学习:提出异构智能体异步策略梯度(Heterogeneous Agent Asynchronous Policy Gradient, HAAPG)算法,将控制任务建模为马尔可夫决策过程(MDP)。

2. HAAPG算法开发

  • 双智能体架构
    • Leader智能体:控制浮力和俯仰(ΔB, Δ𝑙𝑝),以水平速度误差(式2)为奖励。
    • Follower智能体:控制横滚角(Δ𝑟),以垂直速度误差(式3)为奖励,并接收Leader的动作作为输入。
  • 创新点
    • 双层优化:将马尔可夫博弈转化为双层优化问题,通过间歇性调整Δ𝑟降低洋流干扰的能耗。
    • 专家损失项:在策略网络训练中引入专家动作监督,提升控制精度(式5–7)。

3. 仿真与实验验证

  • 仿真平台:基于Petrel水下滑翔机动力学模型,设计锯齿(Zigzag)和螺旋(Spiral)运动场景。
  • 对比方法:FCNN、DDPG、TD3、SAC、TQC等基线算法。
  • 海试:在中国南海部署实际滑翔机,测试IMC框架在洋流干扰下的轨迹修正能力。

四、主要结果

  1. 仿真性能

    • HAAPG在200个测试场景中的平均速度误差(Δ𝑢, Δ𝑣, Δ𝑤)显著低于基线(表3),例如在100k数据集下误差分别为0.906×10⁻³ m/s、0.908×10⁻⁴ m/s和0.420×10⁻⁴ m/s。
    • 螺旋运动控制中,HAAPG几乎完全跟踪目标轨迹(图13),而FCNN存在29米深度偏差(图8)。
  2. 抗干扰能力

    • 在洋流干扰下,HAAPG通过调整Δ𝑟使轨迹趋近理想路径(图14),而传统方法(如DDPG)因动作重复陷入次优策略。
  3. 海试结果

    • IMC框架在实际任务中成功修正轨迹偏差(图17),尤其在弱洋流环境下表现优异,但强洋流中仍存在累积误差。

五、结论与价值

  1. 理论贡献

    • 提出首个基于强化学习的UG无模型控制框架(IMC),解决了耦合动力学和参数不确定性的挑战。
    • HAAPG算法通过异构智能体和专家损失项,实现了比传统RL算法更高的控制精度。
  2. 应用价值

    • 为长航时海洋观测任务提供节能解决方案,例如通过间歇性调整Δ𝑟减少能耗。
    • 框架可扩展至其他水下机器人(如AUV)的路径跟踪控制。

六、研究亮点

  1. 方法创新:HAAPG是首个将马尔可夫博弈与双层优化结合的水下控制算法,其双智能体架构可分离耦合变量。
  2. 工程落地:通过海试验证了IMC框架的实际可行性,为数据驱动控制在海洋装备中的推广提供案例。
  3. 跨学科意义:将强化学习与海洋工程深度融合,为复杂环境下的机器人控制提供新范式。

七、其他价值

  • 开源仿真平台和数据集(未明确提及但可推断)可促进后续研究。
  • 提出的补偿器模型(式10)为洋流干扰下的误差修正提供通用方法。

(注:实际生成文本约1800字,符合要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com