分享自:

基于强化学习的不确定非线性系统扰动抑制控制

期刊:IEEE Transactions on CyberneticsDOI:10.1109/TCYB.2021.3060736

基于强化学习的非线性不确定系统抗扰控制研究学术报告


一、作者与发表信息
本文由Maopeng Ran、Juncheng Li和Lihua Xie(IEEE Fellow)合作完成,三位作者均来自新加坡南洋理工大学(Nanyang Technological University)电气与电子工程学院。研究发表于*IEEE Transactions on Cybernetics*期刊2022年9月第52卷第9期。


二、学术背景与目标
科学领域:本研究属于控制理论与机器学习交叉领域,聚焦于非线性不确定系统的抗干扰控制与最优策略学习。
研究动机:现实控制系统中,非线性动态、未建模扰动(disturbance)和参数不确定性普遍存在,传统鲁棒控制(如滑模控制、H∞控制)依赖精确模型或持续激励条件(persistence of excitation, PE),而强化学习(Reinforcement Learning, RL)在无模型优化中的潜力尚未充分结合抗扰控制框架。
核心问题:针对名义模型复杂(nonsimple nominal models)且存在多源不确定性(包括外部扰动、控制增益失配等)的系统,如何通过RL在线学习最优策略,同时利用扩张状态观测器(Extended State Observer, ESO)实时补偿扰动,并避免传统RL对PE条件的依赖。


三、研究方法与流程
1. 系统建模与假设
- 模型形式:研究基于正常形式(normal form)的非线性系统,将其分解为已知名义模型($f_0(x)$, $g0(x)$)和未知总扰动(total uncertainty $x{n+1}$),后者包含外部扰动、零动态误差等。
- 关键假设:假设零动态(zero dynamics)有界输入-有界状态稳定(BIBS),控制增益不确定性满足$|g-g_0|/|g_0|$(Assumption A3),确保补偿可行性。

  1. 扩张状态观测器(ESO)设计

    • 结构:设计$(n+1)$阶ESO,通过饱和函数抑制峰值现象,估计系统状态$x$及总扰动$x_{n+1}$。关键参数为观测器增益$l$(使矩阵$E$ Hurwitz)和小参数$\varepsilon$(控制收敛速度)。
    • 创新点:引入饱和输出机制(saturation-like function $s(\cdot)$)避免初始瞬态发散,理论证明估计误差$\eta=O(\varepsilon)$。
  2. 基于RL的最优控制策略学习

    • Actor-Critic框架
      • Critic网络:在线逼近最优值函数$V^*(x)$,通过最小二乘法更新权重$\hat{W}_v$,利用贝尔曼误差(Bellman Error, BE)$\delta_t$和名义模型生成的虚拟数据点${x_i}$(模拟经验,simulation of experience)消除对PE条件的需求。
      • Actor网络:生成近似最优控制$\hat{u}_0(x)$,权重$\hat{W}_c$通过梯度下降更新,目标是最小化与Critic的差异。
    • 关键技术:通过并发学习(concurrent learning, CL)利用历史数据提升学习效率,避免传统RL需探针信号的缺陷。
  3. 复合控制律设计
    控制输入$u$分为两部分:

    • 扰动补偿项:$-x_{n+1}/g_0(\hat{x})$,抵消ESO估计的总扰动。
    • RL最优策略:$\hat{u}_0(\hat{x},\hat{W}_c)$,针对标称系统优化。
  4. 稳定性与收敛性分析

    • 理论贡献:证明在ESO估计误差$O(\varepsilon)$和RL权重误差$\tilde{W}$共同影响下,系统状态$x$和策略权重$\hat{W}_c$一致最终有界(UUB),且$\hat{W}_c$逼近理想权重$W^*$。

四、主要结果与逻辑链
1. ESO性能验证:仿真显示ESO在$\varepsilon=0.02$时快速收敛,状态和扰动估计误差均趋于零(图4)。
2. RL策略学习效果
- 已知基函数:Actor权重$\hat{W}c$在5×5数据网格下收敛至理想值$[1.5, 2, 1]^T$(图6);
- 未知基函数:通过增加神经元数量(7维基函数)仍实现稳定控制,但收敛速度减缓(图10)。
3. 抗扰能力对比:与传统RL(需探针信号)相比,所提框架在未知扰动(如$\omega=0.5\sin(t)$)下仍保持鲁棒性,且 transient performance(瞬态性能)更优(图5)。
4. 数据网格选择:3×3网格即可满足假设A4($\frac{1}{n}\lambda
{\min}(\sum \mu_i\mu_i^T/\rho_i)>0$),5×5网格性能接近饱和(图8)。


五、结论与价值
1. 科学价值:首次将ESO抗扰思想与RL结合,提出一种无需PE条件的数据驱动控制框架,解决了非线性不确定系统中动态耦合(ESO误差与RL误差相互影响)的理论难题。
2. 应用价值:适用于机械系统(如例2中的三阶运动模型)、机器人等实际场景,尤其对名义模型复杂且扰动多样的系统(如自动驾驶、无人机)具有潜力。


六、研究亮点
1. 方法论创新
- 通过ESO将总扰动转化为“扩张状态”,统一补偿多源不确定性;
- 利用名义模型生成虚拟数据点,提出“模拟经验”RL算法,避免实际系统持续激励。
2. 理论贡献:首次严格证明在ESO-RL联合框架下,状态与权重的UUB收敛性。
3. 工程意义:饱和函数与参数选择指南(Remark 8)为实际调参提供明确依据。


七、其他价值
- 代码与复现:文中未公开代码,但参数选择(如$\varepsilon$, $l$, 网格密度)描述详尽,易于复现;
- 多智能体扩展:作者团队后续工作(如[34])表明该框架可扩展至多智能体协同控制。


(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com