分享自:

基于强化学习的无人水面艇固定时间最优跟踪控制:理论与实验

期刊:transactions on industrial electronics

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


研究作者与机构
本文的主要作者包括Yuzhu Xiang、Xiaofei Yang、Xin Yan、Jian Guo和Zhengrong Xiang。他们分别来自南京理工大学自动化学院和江苏科技大学自动化学院。该研究发表在《Transactions on Industrial Electronics》期刊上,稿件编号为25-TIE-1404,属于常规论文类型。

学术背景
该研究的主要科学领域是控制工程,特别是无人水面艇(Unmanned Surface Vehicles, USVs)的固定时间最优跟踪控制。近年来,USVs在海洋工程中得到了广泛应用,例如海上监视、搜索与救援、水运输和环境监测等。然而,USVs在户外操作时不可避免地受到风力、波浪和洋流等干扰,导致轨迹跟踪的精度难以保证。传统的控制方法通常只能保证渐近稳定性,而实际应用中需要快速且可靠的响应。为此,固定时间控制(Fixed-Time Control)方法逐渐受到关注,因为它能够提供与初始条件无关的收敛时间保证。此外,现有的固定时间控制方法往往忽略了控制输入成本的问题。本研究旨在通过强化学习(Reinforcement Learning, RL)设计一种固定时间最优跟踪控制算法,以在保证快速收敛的同时降低控制能耗。

研究目标
本研究的主要目标是设计一种基于强化学习的固定时间跟踪控制算法,用于USVs的轨迹跟踪。该算法需考虑未知干扰和模型非线性,并通过模糊逻辑进行近似处理。此外,研究还提出了一种非奇异快速终端滑模面(Nonsingular Fast Terminal Sliding Mode Surface),以确保跟踪误差在固定时间内收敛,并提供了收敛时间的上限估计。最终,通过仿真和现场实验验证了该算法的有效性。

研究流程
1. 问题建模与性能指标函数设计
首先,研究推导了USVs的跟踪误差动态模型,并提出了一种新的性能指标函数(Performance Index Function, PIF),该函数同时考虑了跟踪误差和控制输入成本。PIF的设计目标是使控制输入在保证跟踪精度的同时尽可能节能。

  1. 非奇异快速终端滑模面设计
    为了确保跟踪误差在固定时间内收敛,研究设计了一种非奇异快速终端滑模面。该滑模面的特点是能够快速将状态驱动到滑模面上,并在误差较大时表现出更快的收敛速度。

  2. 强化学习控制方案设计
    研究采用强化学习框架,通过设计一个标识器(Identifier)和一个评价器(Critic)来近似未知的系统动态和最优控制策略。标识器用于实时估计未知干扰和模型不确定性,而评价器则用于近似最优性能指标函数。

  3. 稳定性分析与固定时间收敛证明
    通过Lyapunov理论,研究证明了闭环系统的稳定性和固定时间收敛性,并提供了收敛时间的上限估计。

  4. 仿真与现场实验
    研究通过仿真和现场实验验证了所提出算法的有效性。仿真实验使用了一个USV平台,实验参数包括初始位置、速度和期望轨迹。现场实验在“海云湖”进行,实验平台为双体船结构的USV,配备了GPS和IMU等传感器。

主要结果
1. 性能指标函数的优化
通过仿真和实验验证,所提出的性能指标函数在保证跟踪精度的同时,显著降低了控制输入成本。

  1. 固定时间收敛性验证
    仿真和实验结果均表明,所提出的控制算法能够使跟踪误差在固定时间内收敛,且收敛时间与初始条件无关。

  2. 鲁棒性验证
    在现场实验中,USV在风力和波浪干扰下仍能保持高精度的轨迹跟踪,验证了算法的鲁棒性。

  3. 控制成本分析
    实验数据显示,控制成本在算法运行初期显著下降,但在USV转弯时略有上升,这是由于转弯过程中跟踪性能的暂时下降所致。

结论
本研究提出了一种基于强化学习的固定时间最优跟踪控制算法,成功解决了USVs在未知干扰和模型非线性下的轨迹跟踪问题。通过设计非奇异快速终端滑模面和性能指标函数,算法在保证快速收敛的同时降低了控制输入成本。仿真和现场实验验证了算法的有效性和鲁棒性,为USVs在实际应用中的控制提供了可靠解决方案。

研究亮点
1. 创新性性能指标函数
本研究提出了一种新的性能指标函数,同时考虑了跟踪误差和控制输入成本,显著提高了控制效率。

  1. 固定时间收敛保证
    通过设计非奇异快速终端滑模面,算法能够确保跟踪误差在固定时间内收敛,且收敛时间与初始条件无关。

  2. 强化学习框架的应用
    研究采用强化学习框架,通过标识器和评价器近似未知系统动态和最优控制策略,提高了算法的适应性和鲁棒性。

  3. 现场实验验证
    通过现场实验,研究验证了算法在实际环境中的有效性,为USVs的工程应用提供了重要参考。

其他价值
本研究不仅为USVs的控制提供了新的理论支持,还为其他复杂非线性系统的控制设计提供了借鉴。未来研究将进一步探索算法在极端环境下的应用,例如故障情况下的USV跟踪控制。


这篇报告详细介绍了研究的背景、目标、流程、结果和结论,并突出了研究的创新性和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com