自适应复合固定时间强化学习优化的非线性系统控制及其在智能船舶自动驾驶上的应用

智能船舶自动驾驶的非线性固定时间强化学习优化控制研究

近年来,智能自动驾驶技术逐渐成为自动化控制领域的研究热点之一。在复杂的非线性系统中,优化控制策略的设计,尤其是在固定时间内实现系统稳定性和性能优化方面,是控制工程师和研究人员面临的重要挑战之一。然而,现有的固定时间控制理论在实现系统状态收敛时,往往忽略了资源利用效率和平衡问题,这可能导致过度补偿或欠补偿的现象,从而使系统的稳态误差增加。此外,对于如何在时间限定内实现非线性不确定性估计误差的最小化,相关研究依然较少。因此,本研究旨在提出一种自适应复合固定时间强化学习优化控制解决方案,进一步解决这一关键问题。

研究背景及目的

固定时间控制理论自提出以来,由于收敛时间不依赖于初始状态的特点,其应用得到了广泛关注。相比有限时间控制方法,固定时间控制减少了对初始条件的约束。然而,尽管已有研究在有限时间内解决了非线性系统的优化控制问题,但其大多聚焦于仿射非线性系统而非严格反馈型系统(strict-feedback systems)。此外,在处理非线性不确定性问题时,神经网络(Neural Networks, NNs)技术以其较强的学习和近似能力被广泛应用,但在实际应用中如何提高其估计精度和减少系统误差仍然是一个重要的未解问题。

针对上述背景,本研究由多位学者完成,其中包括来自大连海事大学导航学院的Siwen Liu和Yi Zuo,来自电子科技大学自动化工程学院及其长三角研究院的Tieshan Li和Xiaoyang Gao,以及来自辽宁大学数学科学学院的Huanqing Wang,以及美国阿拉巴马大学计算机科学系的Yang Xiao。论文发表于《IEEE Transactions on Artificial Intelligence》2025年1月刊,研究得到了中国国家自然科学基金(项目编号:51939001、61976033、62173046和52301418)的资助支持。

研究流程及方法

研究流程设计

研究基于严格反馈型系统,提出了一种自适应复合固定时间强化学习优化控制策略,解决了系统非线性不确定性问题。本研究的主要研究流程如下:

  1. 问题建模
    非线性系统被表示为严格反馈型结构,其状态方程为:
    [ \dot{x}i(t) = x{i+1}(t) + f_i(\overline{x}_i(t)),\quad y(t) = x_1(t) ]
    其中,系统状态为 ( x \in \mathbb{R}^n )。作者定义了跟踪误差 ( z_i ),并规划了固定时间内实现误差收敛的问题目标。

  2. 构建近似模型
    利用径向基函数神经网络(Radial Basis Function Neural Networks, RBFNNs)对不确定目标函数 ( f_i ) 进行建模,其中近似关系为:
    [ f(x) \approx W^T S(x) + \epsilon ]
    其中 ( W ) 为待训练的权重矩阵,( S(x) ) 为高斯基函数,误差项 ( \epsilon ) 满足理论约束。

  3. 引入固定时间平滑估算系统
    为提升神经网络性能,作者设计了一种新型复合自适应更新规则,包括自适应权重调整参数 ( \dot{\hat{\theta}}_i ) 和跟踪误差预测反馈机制。通过这种机制显著提高了RBFNN权重估计的稳定性和精度。

  4. 强化学习优化控制策略设计
    论文采用了基于强化学习(Reinforcement Learning, RL)的critic-actor架构。Critic部分用于对HJB(Hamilton-Jacobi-Bellman)方程的极小化进行近似,而Actor部分则实现优化控制律。通过反馈式权重更新和事件触发机制,进一步平衡了系统性能与计算资源。

  5. 算法稳定性分析
    结合李雅普诺夫函数,作者对所提控制器的稳定性及误差收敛性进行了严格的数学证明,得出误差在固定时间内收敛至零附近的结论。

  6. 仿真验证
    最后,研究通过智能船舶自动驾驶问题的数值仿真实验,对所提出算法的有效性和实用性进行了验证。

研究方法亮点

a) 引入了一种固定时间平滑估算系统从根本上改进了近似性能;
b) 在critic-actor架构中设计了鲁棒更新法则,通过固定时间参数调控实现最优权重学习;
c) 提出的方法引入了双重反馈调节机制,避免了间接控制器求导中的奇异性问题;
d) 在面向多智能体系统的固定时间控制问题解决上具有潜在的应用拓展。

主要结果与分析

建模与优化结果

研究中,固定时间追踪误差动态方程的稳定性分析表明: - 对于性能函数 ( J(x(0), u(x(0))) ),通过优化后的Hamilton-Jacobi-Bellman方程,作者成功获得了唯一优化控制律 ( u^*(x) ); - 李雅普诺夫函数的数学推导清晰表明,误差变量 ( z_i, \chi_i ) 等,都以固定时间 ( T_s ) 收敛至原点附近的可控区域。

仿真实验

在智能船舶自动驾驶的仿真实验中,应用所提出的算法控制船舶的航向角(heading angle),实验结果表明: - 系统响应曲线(如 ( x_1(t) ) 和参考轨迹 ( y_r(t) )):误差迅速趋于零,跟踪性能显著; - 性能函数收敛性:通过优化路径,成本函数 ( c_1 ) 和 ( c_2 ) 呈现快速收敛,显示了资源利用的高效性。

研究结论及价值

研究意义

  1. 理论层面
    本研究填补了固定时间控制方法在复合自适应优化领域上的空白,为非线性控制理论提供了重要参考。

  2. 应用层面
    所提方法不仅在智能船舶领域具有重要潜力,未来在多智能体机器人协作、无人驾驶汽车等领域亦可广泛应用。

研究亮点

  • 提出的创新性固定时间平滑估算系统将有效减少神经网络近似误差,为相关领域提供了一种高效工具;
  • 强化学习与复合控制策略的巧妙结合,证明了其在解决非线性系统不确定性方面的可靠性和实用性;
  • 通过数学严谨的稳定性分析,明确了方法的鲁棒性和适用范围。

这项研究不仅在智能自主控制领域具有突出的学术价值,还展示了其在实际工程问题中的潜在巨大应用价值。