本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于强化学习的连续时间线性周期系统自适应最优控制研究
作者及机构
该研究由Bo Pang(纽约大学坦登工程学院电气与计算机工程系,美国)、Zhong-Ping Jiang(纽约大学坦登工程学院)和Iven Mareels(IBM研究院澳大利亚)合作完成,发表于2020年的控制领域期刊《Automatica》(Volume 118, 109035)。
学术背景
研究领域与动机
该研究属于控制理论与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于连续时间线性周期系统(Continuous-Time Linear Periodic, CTLP)的自适应最优控制问题。周期系统在工程中广泛存在,例如直升机振动抑制、机器人操纵和程序化广告等。传统方法需依赖精确的系统动力学模型,而实际系统中模型参数往往未知或时变,导致经典控制理论应用受限。此外,现有自适应动态规划(Adaptive Dynamic Programming, ADP)算法多针对时不变系统,对时变系统的研究相对匮乏。因此,作者提出结合策略迭代(Policy Iteration, PI)与ADP的新方法,以实现无需精确模型的最优控制。
科学问题与目标
核心目标是为CTLP系统设计无限时域自适应最优控制器,解决两个关键问题:
1. 如何在不依赖系统动力学精确知识的情况下,通过输入/状态数据学习最优控制策略;
2. 如何保证学习算法的收敛性及闭环系统的稳定性。
研究方法与流程
1. 理论基础与模型构建
- 系统模型:研究基于状态方程 ( \dot{x}(t) = A(t)x(t) + B(t)u(t) ),其中( A(t) )和( B(t) )为周期矩阵(周期( T )),控制目标为最小化二次代价函数(含状态与输入权重矩阵( C(t) )和( R(t) ))。
- 关键理论工具:利用Floquet理论和周期Riccati方程(Periodic Riccati Equation, PRE)分析系统稳定性,证明在可镇定性与可检测性条件下,最优解存在且唯一。
2. 策略迭代算法的改进
- 模型已知场景:提出改进的策略迭代(PI)算法,通过交替求解周期Lyapunov方程(Policy Evaluation)和策略更新(Policy Improvement),确保控制增益序列收敛至最优解。作者新增假设条件,将点收敛强化为一致收敛(Corollary 9)。
- 创新点:传统PI在周期系统中可能收敛至非稳定解,而改进后的算法能保证控制器的稳定性和最优性。
3. 基于ADP的数据驱动算法设计
- 在线策略(On-Policy)算法:
1. 数据采集:在初始稳定控制器(如鲁棒控制器)基础上加入探测噪声( u_e(t) ),采集系统轨迹数据。
2. 函数逼近:利用傅里叶基函数近似周期矩阵( P(t) )和控制增益( K(t) ),将动态方程转化为线性回归问题(式15)。
3. 最小二乘求解:在持续激励条件(Assumption 10)下,通过最小二乘法更新权重矩阵,逐步逼近最优解(Algorithm 1)。
4. 实验验证
- 对象:以经典“损耗马修方程”(Lossy Mathieu Equation)为例,模型参数( a=1, q=2, \zeta=0.2 ),周期( \omega_p=2\pi )。
- 实验设置:初始控制增益( K_0=[15,10] ),探索噪声为多频正弦信号,傅里叶基函数阶数( n=7 ),采样间隔( \Delta t=0.1 )。
- 结果:算法在7次迭代后收敛,仿真显示( P_i(t) )和( K_i(t) )一致收敛至最优解(图1-2)。
主要结果与逻辑关系
1. 理论结果:
- 改进的PI算法在周期系统中具有一致收敛性(Corollary 9),为数据驱动算法提供理论保障。
- 提出的On-Policy和Off-Policy ADP算法在满足持续激励条件下,能收敛至最优控制器(Theorems 14 & Corollary 17)。
结论与价值
1. 科学价值:
- 首次将ADP框架扩展至连续时间周期系统,填补了时变系统自适应最优控制的空白。
- 提出的理论保证了数据驱动算法在周期系统中的收敛性,为后续研究奠定基础。
研究亮点
1. 方法论创新:
- 结合傅里叶逼近与强化学习,解决了周期矩阵难以参数化的难题。
- 提出的Off-Policy算法突破了传统ADP需重复采样的限制。
理论贡献:
跨学科意义:
其他有价值内容
- 附录证明:详细推导了算法的收敛性条件(如Lemma 12和Lemma 13),为复现研究提供了完整理论支持。
- 对比分析:指出传统有限时域方法的局限性(如Fong et al., 2018),凸显了无限时域设计的优势。