本文档属于 类型a(单篇原创研究论文),以下是针对该研究的全面学术报告:
一、研究团队与发表信息
本研究由 Haoyan Zhang、Xudong Zhao(通讯作者)、Huanqing Wang、Guangdeng Zong(IEEE Senior Member)、Ning Xu 合作完成,作者单位包括渤海大学控制科学与工程学院(中国锦州)、大连理工大学电子信息与电气工程学院(中国大连)以及天津工业大学控制科学与工程学院(中国天津)。研究成果发表于 IEEE Transactions on Neural Networks and Learning Systems(2024年2月第35卷第2期),论文标题为《Hierarchical Sliding-Mode Surface-Based Adaptive Actor–Critic Optimal Control for Switched Nonlinear Systems with Unknown Perturbation》。
二、学术背景与研究目标
科学领域与问题背景
- 研究对象:切换非线性系统(Switched Nonlinear Systems)作为混合系统的典型代表,因环境因素导致的多模态特性,在电力管理系统、航天器控制等实际工程中广泛应用。然而,即使每个子系统稳定,切换行为仍可能导致系统失稳。
- 核心挑战:传统控制方法对未知扰动(如建模不确定性、输入干扰)的鲁棒性不足,且非线性系统的最优控制需解决难以解析的Hamilton-Jacobi-Bellman(HJB)方程。
- 研究动机:现有基于强化学习(Reinforcement Learning, RL)的控制方案多依赖系统状态的直接优化,而层级滑模面(Hierarchical Sliding-Mode Surface, HSMS)的引入可提升响应速度与鲁棒性,但此前未被应用于切换非线性系统的自适应最优控制。
研究目标
开发一种基于HSMS和Actor-Critic(AC)神经网络的自适应最优控制框架,解决以下问题:
1. 设计新型扰动观测器以估计未知非线性扰动;
2. 通过HSMS构造成本函数,将控制问题转化为最优策略求解;
3. 消除对持续激励条件(Persistent Excitation, PE)的依赖,降低保守性。
三、研究流程与方法
1. 系统建模与假设
- 研究对象:连续时间切换非线性系统(式1),含未知非线性扰动 σ(t)(x),满足有界性假设(Assumption 2)。
- 层级滑模面(HSMS)设计(图1):
- 子滑模面(Sub-sliding surface)s = pxi + x,通过线性组合状态变量实现不同性能影响;
- 高层滑模面s = c s− + s,集成子系统信息,适用于欠驱动系统。
2. 扰动观测器设计
- 算法创新:提出嵌套参数自适应律的扰动观测器(式9-12),通过Lyapunov理论证明观测误差一致最终有界(UUB)。
- 关键步骤:引入辅助变量θk,动态调整估计参数βk,避免依赖PE条件。
3. 基于HSMS的自适应最优控制
- 成本函数构建(式22):关联HSMS的状态惩罚项,如st qk s和uk,eq的二次成本。
- AC神经网络求解HJB方程:
- Critic网络(式40):采用梯度下降法更新权重,无需PE条件;
- Actor网络(式42):同步更新策略,通过分离权重减少计算耗时。
- 控制律设计(式43-44):
- 等效控制:uk,eq = −(1⁄2)m−1k ltgtk (x)t∇j ∗k (s);
- 切换控制:uk,sw = −qk tanh(·),结合扰动补偿项。
4. 稳定性分析
- Lyapunov函数(式56):综合滑模面误差、成本函数及权重误差,证明闭环系统所有信号UUB(Theorem 2)。
四、主要研究结果
- 扰动估计有效性(图6-9):仿真显示观测器能快速跟踪未知扰动,误差最终有界(如1,1估计误差%)。
- 控制性能验证(图4-5):系统状态在12秒后收敛至原点邻域,HSMS显著提升响应速度。
- AC网络权重收敛(图12-15):Critic与Actor网络权重在仿真中稳定,验证了同步更新策略的有效性。
结果逻辑链
- 扰动观测器的设计为控制律提供了可靠的扰动补偿(式44);
- HSMS成本函数将状态误差与控制输入联合优化,使得系统在滑模面上实现最优性能;
- AC网络通过在线学习逼近HJB解,避免了传统动态编程(DP)的“维度灾难”。
五、研究结论与价值
科学意义
- 理论贡献:首个将HSMS与AC架构结合的切换非线性系统控制方案,扩展了自适应动态规划(ADP)的应用范围。
- 方法创新:
- 嵌套参数自适应律的扰动观测器;
- 无PE条件的Critic网络权重更新。
应用价值
适用于需多模态切换的工程系统(如航天器轨道转移、水下机器人避障),提供高鲁棒性、低保守性的控制策略。
六、研究亮点
- 层级滑模面的引入:通过分层结构整合子系统信息,优化响应速率(对比传统单层滑模控制)。
- Actor-Critic同步更新:相比顺序调参方法(如文献[16]),计算效率提升30%。
- 扰动观测器的通用性:可扩展至其他非线性系统,无须系统动力学先验知识。
七、其他重要内容
- 仿真案例:以双倒立摆系统(图3)验证方法有效性,仿真参数详见第V节。
- 局限性:HSMS的抖振现象需进一步抑制(作者建议未来研究结合边界层技术)。
以上内容全面覆盖了该研究的创新性、方法论及工程价值,为相关领域学者提供了技术参考。