基于强化学习框架的具有未知时变不确定性的仿射非线性系统鲁棒控制研究
作者及机构
本研究由西安高新研究院第一研究所控制科学与工程学院的Wenxin Guo、Weiwei Qin(通讯作者)、Chen Hu和Jieyu Liu共同完成,发表于2023年6月的《IET Control Theory & Applications》期刊(DOI: 10.1049/cth2.12520)。研究得到陕西省自然科学基金(2020JM-357)和国家自然科学基金(61503392)的支持。
学术背景
科学领域与动机
该研究属于控制理论与强化学习的交叉领域,聚焦于仿射非线性系统(affine nonlinear system)在时变不确定性(time-varying uncertainty)下的自适应鲁棒控制问题。工程实践中,此类系统常因外部扰动或未建模动态导致性能下降,传统强化学习算法(如策略迭代,policy iteration)在时变不确定性下存在稳定性不足的缺陷。研究团队旨在提出一种结合径向基函数神经网络(RBFNN, radial basis function neural network)的新型策略迭代算法,以消除对不确定性上界(supremum of uncertainty)的依赖,提升控制精度与收敛速度。
理论基础
1. 仿射非线性系统模型:系统动态描述为状态方程 ( \dot{x} = f(x) + g(x)u + \delta f(x) ),其中 ( \delta f(x) ) 为未知时变不确定性。
2. 强化学习框架:通过策略迭代(PI, policy iteration)求解哈密顿-雅可比-贝尔曼方程(HJB, Hamilton-Jacobi-Bellman equation),生成最优控制律(optimal control law)。
3. 神经网络逼近:利用RBFNN逼近不确定性 ( \delta f(x) ),避免传统方法需预设不确定性上界的局限性。
研究流程与方法
1. 问题建模与算法设计
- 系统假设:假设 ( f(x) ) 和 ( g(x) ) 已知且李普希茨连续(Lipschitz continuous),不确定性 ( \delta f(x) ) 有界且可被RBFNN逼近(式2)。
- 控制目标:设计反馈控制律 ( u = u_0(x) ),使系统在 ( \delta f(x) ) 下渐近稳定。
- 算法创新:提出三阶段迭代算法(Algorithm 1):
- 值评估(Value Evaluation):通过Critic NN(式16)近似值函数 ( V(x) ),误差函数为式19。
- 不确定性估计(Uncertainty Estimation):利用RBFNN(式22)在线更新权重 ( \hat{\theta}_e ),动态逼近 ( \delta f(x) )。
- 策略更新(Policy Update):Actor NN(式17)生成控制律 ( \hat{u}(t) ),通过式23优化权重 ( \hat{\theta}_a )。
2. 稳定性与收敛性证明
- Lyapunov理论:通过构造Lyapunov函数(式36-43),证明闭环系统的一致最终有界性(UUB, uniformly ultimately bounded)。
- 权重收敛性(Theorem 2):在适当学习率(( l_c, l_e, l_a ))下,Critic和Actor NN的权重误差 ( |\hat{\theta}_c - \theta_c^| ) 和 ( |\hat{u} - u^| ) 有界。
3. 仿真验证
- 对象:扭转摆系统(式44),状态 ( x = [\theta, \omega]^T ),不确定性设为 ( \delta f(x) = [p_1 \sin(x_1)x_2, p_2 \sin(x_2)x_1]^T )。
- NN结构:Critic NN(2-8-1)、Actor NN(2-2-1)、RBFNN(2-8-2),激活函数为 ( \tanh(\cdot) )。
- 对比实验:与文献[34]的两种方法(已知不确定性上界、极宽上界)对比,结果显示:
- 收敛速度:本文算法与已知上界方法相当(图3)。
- 逼近误差:最终误差低于极宽上界方法(图4)。
主要结果
1. 控制律性能:算法生成的 ( \hat{u}(t) ) 使系统状态 ( x_1, x_2 ) 快速收敛至平衡点(图3),且无需预设不确定性上界。
2. RBFNN有效性:不确定性估计误差随迭代减小(图4),验证了RBFNN的动态逼近能力。
3. 理论贡献:
- 提出新型HJB方程(式5),引入效用函数 ( \beta(x) )(式8)以兼容不确定性。
- 证明UUB稳定性(Theorem 3),扩展了强化学习在不确定系统中的适用性。
结论与价值
科学价值
1. 方法论创新:首次将RBFNN嵌入强化学习框架,动态估计时变不确定性,突破了传统方法依赖上界假设的局限。
2. 理论完备性:通过Lyapunov分析统一了算法收敛性与系统稳定性,为非线性控制提供了新工具。
应用价值
1. 工程适用性:适用于机械臂、电力系统等存在未建模动态的场景,仿真表明其在扭转摆控制中优于现有方法。
2. 算法鲁棒性:对参数变化(如 ( p_{1,2} ) 的时变性)具有强适应性,适合实际系统中的动态扰动。
研究亮点
1. 免上界假设:通过RBFNN在线估计不确定性,避免保守性设计。
2. 多网络协同:Critic-Actor-RBFNN三网络交替更新,提升学习效率。
3. 仿真验证全面:对比实验涵盖收敛性、误差和鲁棒性,结果可复现。
其他价值
- 开源代码潜在性:未提及具体实现,但算法步骤(Algorithm 1)描述详尽,便于复现。
- 未来方向:可扩展至完全未知动力学系统(如无模型控制),进一步提升泛化能力。