基于强化学习的非线性不确定系统抗扰控制研究学术报告
一、作者与发表信息
本文由Maopeng Ran、Juncheng Li和Lihua Xie(IEEE Fellow)合作完成,三位作者均来自新加坡南洋理工大学(Nanyang Technological University)电气与电子工程学院。研究发表于*IEEE Transactions on Cybernetics*期刊2022年9月第52卷第9期。
二、学术背景与目标
科学领域:本研究属于控制理论与机器学习交叉领域,聚焦于非线性不确定系统的抗干扰控制与最优策略学习。
研究动机:现实控制系统中,非线性动态、未建模扰动(disturbance)和参数不确定性普遍存在,传统鲁棒控制(如滑模控制、H∞控制)依赖精确模型或持续激励条件(persistence of excitation, PE),而强化学习(Reinforcement Learning, RL)在无模型优化中的潜力尚未充分结合抗扰控制框架。
核心问题:针对名义模型复杂(nonsimple nominal models)且存在多源不确定性(包括外部扰动、控制增益失配等)的系统,如何通过RL在线学习最优策略,同时利用扩张状态观测器(Extended State Observer, ESO)实时补偿扰动,并避免传统RL对PE条件的依赖。
三、研究方法与流程
1. 系统建模与假设
- 模型形式:研究基于正常形式(normal form)的非线性系统,将其分解为已知名义模型($f_0(x)$, $g0(x)$)和未知总扰动(total uncertainty $x{n+1}$),后者包含外部扰动、零动态误差等。
- 关键假设:假设零动态(zero dynamics)有界输入-有界状态稳定(BIBS),控制增益不确定性满足$|g-g_0|/|g_0|$(Assumption A3),确保补偿可行性。
扩张状态观测器(ESO)设计
基于RL的最优控制策略学习
复合控制律设计
控制输入$u$分为两部分:
稳定性与收敛性分析
四、主要结果与逻辑链
1. ESO性能验证:仿真显示ESO在$\varepsilon=0.02$时快速收敛,状态和扰动估计误差均趋于零(图4)。
2. RL策略学习效果:
- 已知基函数:Actor权重$\hat{W}c$在5×5数据网格下收敛至理想值$[1.5, 2, 1]^T$(图6);
- 未知基函数:通过增加神经元数量(7维基函数)仍实现稳定控制,但收敛速度减缓(图10)。
3. 抗扰能力对比:与传统RL(需探针信号)相比,所提框架在未知扰动(如$\omega=0.5\sin(t)$)下仍保持鲁棒性,且 transient performance(瞬态性能)更优(图5)。
4. 数据网格选择:3×3网格即可满足假设A4($\frac{1}{n}\lambda{\min}(\sum \mu_i\mu_i^T/\rho_i)>0$),5×5网格性能接近饱和(图8)。
五、结论与价值
1. 科学价值:首次将ESO抗扰思想与RL结合,提出一种无需PE条件的数据驱动控制框架,解决了非线性不确定系统中动态耦合(ESO误差与RL误差相互影响)的理论难题。
2. 应用价值:适用于机械系统(如例2中的三阶运动模型)、机器人等实际场景,尤其对名义模型复杂且扰动多样的系统(如自动驾驶、无人机)具有潜力。
六、研究亮点
1. 方法论创新:
- 通过ESO将总扰动转化为“扩张状态”,统一补偿多源不确定性;
- 利用名义模型生成虚拟数据点,提出“模拟经验”RL算法,避免实际系统持续激励。
2. 理论贡献:首次严格证明在ESO-RL联合框架下,状态与权重的UUB收敛性。
3. 工程意义:饱和函数与参数选择指南(Remark 8)为实际调参提供明确依据。
七、其他价值
- 代码与复现:文中未公开代码,但参数选择(如$\varepsilon$, $l$, 网格密度)描述详尽,易于复现;
- 多智能体扩展:作者团队后续工作(如[34])表明该框架可扩展至多智能体协同控制。
(全文约2000字)