本研究的作者包括:
- Yueqing Zhang 和 Bing Chu(均来自英国南安普顿大学,University of Southampton)
- Zhan Shu(来自加拿大阿尔伯塔大学,University of Alberta)
该研究发表于2022年,刊登在IFAC PapersOnline 55(12)期刊,属于控制科学与工程领域,具体研究方向为迭代学习控制(Iterative Learning Control, ILC)与强化学习(Reinforcement Learning, RL)的交叉应用。
迭代学习控制(ILC)是一种针对重复性系统的高性能控制方法,通过利用历史数据不断优化控制输入,以提高跟踪精度。传统ILC算法分为两类:
- 基于模型的ILC(Model-based ILC):利用系统动态模型设计控制律,收敛速度较快,但依赖精确的数学模型。
- 无模型(数据驱动)ILC(Model-free/Data-driven ILC):无需系统模型,直接利用数据优化控制输入,但通常收敛较慢。
近年来,强化学习(RL)在控制领域崭露头角,因其探索-优化机制与ILC的学习特性高度相似,为ILC设计提供了新的思路。
本研究的核心目标是:
- 提出一种参数最优迭代学习控制(Parameter Optimal ILC, POILC)的新型方案,使其在不依赖系统模型的情况下,仍能保持高性能跟踪能力。
- 结合数据驱动和强化学习方法,分别发展两种无模型ILC算法,并比较它们的优劣。
研究主要包括三个关键环节:
1. 基于模型的POILC算法回顾(Model-based POILC)
2. 数据驱动的POILC算法设计(Data-driven POILC)
3. 强化学习(RL)优化的POILC算法开发(RL-based POILC)
研究采用三轴龙门机械臂(Gantry Robot)的Z轴模型作为测试对象,其传递函数为:
$$ G(s) = \frac{(s + 473.51)(s + 199.02)}{s(s + 989.06)(s^2 + 532.44s + 95777.08)} $$
实验中设置仿真参数如下: - 采样周期 (T_s = 0.01) s
- 实验长度 (N = 50)(0.5秒)
- 参考信号 (r(t) = 2 \sin(T_s \cdot t))
传统POILC算法通过优化参数 ( \gammak ) 来更新控制输入:
$$ u{k+1} = uk + \gamma{k+1} ek
$$ 其中,目标函数为:
$$ J(\gamma) = |e{k+1}|^2 + \omega \gamma^2
$$ 最优解(模型依赖):
$$ \gamma^* = \frac{e_k^T G^T e_k}{\omega + e_k^T G^T G e_k}
$$
该方法依赖精确模型 (G),若模型不精确(如实验中使用的错误模型 (G_{\text{inaccurate}})),性能会显著下降。
为摆脱模型依赖,提出一种实验辅助优化方案: - 在每次ILC实验后,额外进行一次实验(称为“扰动实验”),使用当前误差 (e_k) 作为输入。
- 测量输出 ( \bar{y}_k = G ek ),并基于它计算最优参数:
$$ \gamma{k+1} = \frac{e_k^T \bar{y}_k}{\omega + \bar{y}_k^T \bar{y}_k}
$$
虽然额外实验带来更高计算成本,但完全避免模型依赖,且理论上收敛性与模型方法相同。
利用强化学习(RL)的策略梯度(Policy Gradient, PG)方法优化参数 ( \gamma_k ): - 状态(State):当前误差 (ek)
- 动作(Action):学习增益 ( \gamma{k+1} \sim \mathcal{N}(\mu(e_k, \theta), \sigma(ek, \theta)) )(高斯策略)
- 奖励(Reward):( R(\gamma{k+1}) = -|e{k+1}|^2 - \omega \gamma{k+1}^2 )(最大化负误差)
该方法的优势在于: - 完全不依赖模型,仅需ILC实验数据
- 可通过调整函数逼近器数量(m)提高收敛速度
在200次实验(实验时长=0.5s)下,不同方法的误差下降速度如下:
| 方法 | 收敛时间(实验次数) | 最终误差 |
|——|———————|———|
| 模型准确POILC | 135 | < 0.2 |
| 数据驱动POILC | 270 | ~0.1 |
| RL-POILC(m=5) | 999 | ~0.2 |
| RL-POILC(m=20) | 114 | ~0.1 |
若POILC采用错误的模型 (G_{\text{inaccurate}}),误差无法收敛至目标阈值(0.2),证明了模型的敏感性,突显无模型方法的优势。
科学价值
应用价值
方法论创新
实验结果启示
工业可行性
该研究为无模型高性能控制提供了新思路,值得进一步推广和应用。