分享自:

连续时间线性周期系统的自适应最优控制强化学习

期刊:automaticaDOI:10.1016/j.automatica.2020.109035

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于强化学习的连续时间线性周期系统自适应最优控制研究

作者及机构
该研究由Bo Pang(纽约大学坦登工程学院电气与计算机工程系,美国)、Zhong-Ping Jiang(纽约大学坦登工程学院)和Iven Mareels(IBM研究院澳大利亚)合作完成,发表于2020年的控制领域期刊《Automatica》(Volume 118, 109035)。


学术背景
研究领域与动机
该研究属于控制理论与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于连续时间线性周期系统(Continuous-Time Linear Periodic, CTLP)的自适应最优控制问题。周期系统在工程中广泛存在,例如直升机振动抑制、机器人操纵和程序化广告等。传统方法需依赖精确的系统动力学模型,而实际系统中模型参数往往未知或时变,导致经典控制理论应用受限。此外,现有自适应动态规划(Adaptive Dynamic Programming, ADP)算法多针对时不变系统,对时变系统的研究相对匮乏。因此,作者提出结合策略迭代(Policy Iteration, PI)与ADP的新方法,以实现无需精确模型的最优控制。

科学问题与目标
核心目标是为CTLP系统设计无限时域自适应最优控制器,解决两个关键问题:
1. 如何在不依赖系统动力学精确知识的情况下,通过输入/状态数据学习最优控制策略;
2. 如何保证学习算法的收敛性及闭环系统的稳定性。


研究方法与流程
1. 理论基础与模型构建
- 系统模型:研究基于状态方程 ( \dot{x}(t) = A(t)x(t) + B(t)u(t) ),其中( A(t) )和( B(t) )为周期矩阵(周期( T )),控制目标为最小化二次代价函数(含状态与输入权重矩阵( C(t) )和( R(t) ))。
- 关键理论工具:利用Floquet理论和周期Riccati方程(Periodic Riccati Equation, PRE)分析系统稳定性,证明在可镇定性与可检测性条件下,最优解存在且唯一。

2. 策略迭代算法的改进
- 模型已知场景:提出改进的策略迭代(PI)算法,通过交替求解周期Lyapunov方程(Policy Evaluation)和策略更新(Policy Improvement),确保控制增益序列收敛至最优解。作者新增假设条件,将点收敛强化为一致收敛(Corollary 9)。
- 创新点:传统PI在周期系统中可能收敛至非稳定解,而改进后的算法能保证控制器的稳定性和最优性。

3. 基于ADP的数据驱动算法设计
- 在线策略(On-Policy)算法
1. 数据采集:在初始稳定控制器(如鲁棒控制器)基础上加入探测噪声( u_e(t) ),采集系统轨迹数据。
2. 函数逼近:利用傅里叶基函数近似周期矩阵( P(t) )和控制增益( K(t) ),将动态方程转化为线性回归问题(式15)。
3. 最小二乘求解:在持续激励条件(Assumption 10)下,通过最小二乘法更新权重矩阵,逐步逼近最优解(Algorithm 1)。

  • 离线策略(Off-Policy)算法
    通过单一探索策略(无需每次迭代重新采集数据)构建数据矩阵(式29),显著降低数据需求(Algorithm 2)。

4. 实验验证
- 对象:以经典“损耗马修方程”(Lossy Mathieu Equation)为例,模型参数( a=1, q=2, \zeta=0.2 ),周期( \omega_p=2\pi )。
- 实验设置:初始控制增益( K_0=[15,10] ),探索噪声为多频正弦信号,傅里叶基函数阶数( n=7 ),采样间隔( \Delta t=0.1 )。
- 结果:算法在7次迭代后收敛,仿真显示( P_i(t) )和( K_i(t) )一致收敛至最优解(图1-2)。


主要结果与逻辑关系
1. 理论结果
- 改进的PI算法在周期系统中具有一致收敛性(Corollary 9),为数据驱动算法提供理论保障。
- 提出的On-Policy和Off-Policy ADP算法在满足持续激励条件下,能收敛至最优控制器(Theorems 14 & Corollary 17)。

  1. 实验验证
    • 损耗马修方程的控制效果证实了算法的有效性。初始鲁棒控制器虽稳定但不最优,而学习后的控制器显著降低代价函数。
    • 关键数据:( |P_i(t)-P^(t)| )和( |K_i(t)-K^(t)| )随迭代次数增加指数衰减(图1-2)。

结论与价值
1. 科学价值
- 首次将ADP框架扩展至连续时间周期系统,填补了时变系统自适应最优控制的空白。
- 提出的理论保证了数据驱动算法在周期系统中的收敛性,为后续研究奠定基础。

  1. 应用价值
    • 适用于直升机振动抑制、机器人控制等实际场景,尤其在模型参数未知或周期性扰动下表现优越。
    • 离线策略算法大幅降低数据需求,提升了工程实用性。

研究亮点
1. 方法论创新
- 结合傅里叶逼近与强化学习,解决了周期矩阵难以参数化的难题。
- 提出的Off-Policy算法突破了传统ADP需重复采样的限制。

  1. 理论贡献

    • 将PI算法的收敛性从点收敛提升至一致收敛,强化了稳定性保障。
  2. 跨学科意义

    • 为控制理论与机器学习的融合提供了新范例,推动了自适应控制在实际系统中的应用。

其他有价值内容
- 附录证明:详细推导了算法的收敛性条件(如Lemma 12和Lemma 13),为复现研究提供了完整理论支持。
- 对比分析:指出传统有限时域方法的局限性(如Fong et al., 2018),凸显了无限时域设计的优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com