分享自:

参数最优迭代学习控制设计:从基于模型、数据驱动到强化学习

期刊:ifac papersonlineDOI:10.1016/j.ifacol.2022.07.360

学术研究报告:基于模型、数据驱动和强化学习的参数最优迭代学习控制设计

一、研究作者及发表信息

本研究的作者包括:
- Yueqing ZhangBing Chu(均来自英国南安普顿大学,University of Southampton)
- Zhan Shu(来自加拿大阿尔伯塔大学,University of Alberta)

该研究发表于2022年,刊登在IFAC PapersOnline 55(12)期刊,属于控制科学与工程领域,具体研究方向为迭代学习控制(Iterative Learning Control, ILC)强化学习(Reinforcement Learning, RL)的交叉应用。

二、研究背景与目标

1. 科学研究背景

迭代学习控制(ILC)是一种针对重复性系统的高性能控制方法,通过利用历史数据不断优化控制输入,以提高跟踪精度。传统ILC算法分为两类:
- 基于模型的ILC(Model-based ILC):利用系统动态模型设计控制律,收敛速度较快,但依赖精确的数学模型。
- 无模型(数据驱动)ILC(Model-free/Data-driven ILC):无需系统模型,直接利用数据优化控制输入,但通常收敛较慢。

近年来,强化学习(RL)在控制领域崭露头角,因其探索-优化机制与ILC的学习特性高度相似,为ILC设计提供了新的思路。

2. 研究目标

本研究的核心目标是:
- 提出一种参数最优迭代学习控制(Parameter Optimal ILC, POILC)的新型方案,使其在不依赖系统模型的情况下,仍能保持高性能跟踪能力。
- 结合数据驱动强化学习方法,分别发展两种无模型ILC算法,并比较它们的优劣。

三、研究方法与流程

1. 研究流程概述

研究主要包括三个关键环节
1. 基于模型的POILC算法回顾(Model-based POILC)
2. 数据驱动的POILC算法设计(Data-driven POILC)
3. 强化学习(RL)优化的POILC算法开发(RL-based POILC)

2. 研究材料与实验对象

研究采用三轴龙门机械臂(Gantry Robot)的Z轴模型作为测试对象,其传递函数为:

$$ G(s) = \frac{(s + 473.51)(s + 199.02)}{s(s + 989.06)(s^2 + 532.44s + 95777.08)} $$

实验中设置仿真参数如下: - 采样周期 (T_s = 0.01) s
- 实验长度 (N = 50)(0.5秒)
- 参考信号 (r(t) = 2 \sin(T_s \cdot t))

3. 详细研究方法

(1)基于模型的POILC(Model-based POILC)

传统POILC算法通过优化参数 ( \gammak ) 来更新控制输入:
$$ u
{k+1} = uk + \gamma{k+1} ek
$$ 其中,目标函数为:
$$ J(\gamma) = |e
{k+1}|^2 + \omega \gamma^2
$$ 最优解(模型依赖):
$$ \gamma^* = \frac{e_k^T G^T e_k}{\omega + e_k^T G^T G e_k}
$$

该方法依赖精确模型 (G),若模型不精确(如实验中使用的错误模型 (G_{\text{inaccurate}})),性能会显著下降。

(2)数据驱动POILC(Data-driven POILC)

为摆脱模型依赖,提出一种实验辅助优化方案: - 在每次ILC实验后,额外进行一次实验(称为“扰动实验”),使用当前误差 (e_k) 作为输入。
- 测量输出 ( \bar{y}_k = G ek ),并基于它计算最优参数
$$ \gamma
{k+1} = \frac{e_k^T \bar{y}_k}{\omega + \bar{y}_k^T \bar{y}_k}
$$

虽然额外实验带来更高计算成本,但完全避免模型依赖,且理论上收敛性与模型方法相同

(3)RL优化的POILC(RL-based POILC)

利用强化学习(RL)的策略梯度(Policy Gradient, PG)方法优化参数 ( \gamma_k ): - 状态(State):当前误差 (ek)
- 动作(Action):学习增益 ( \gamma
{k+1} \sim \mathcal{N}(\mu(e_k, \theta), \sigma(ek, \theta)) )(高斯策略)
- 奖励(Reward):( R(\gamma
{k+1}) = -|e{k+1}|^2 - \omega \gamma{k+1}^2 )(最大化负误差)

该方法的优势在于: - 完全不依赖模型,仅需ILC实验数据
- 可通过调整函数逼近器数量(m)提高收敛速度

四、主要实验结果

1. 收敛性能比较

在200次实验(实验时长=0.5s)下,不同方法的误差下降速度如下:
| 方法 | 收敛时间(实验次数) | 最终误差 |
|——|———————|———|
| 模型准确POILC | 135 | < 0.2 |
| 数据驱动POILC | 270 | ~0.1 |
| RL-POILC(m=5) | 999 | ~0.2 |
| RL-POILC(m=20) | 114 | ~0.1 |

  • 数据驱动POILC虽然计算量翻倍,但与模型方法具有相同的最终精度。
  • RL-POILC的收敛速度受参数化策略的影响:函数逼近器越多(m=20)时,性能接近最优POILC

2. 模型误差的影响

若POILC采用错误的模型 (G_{\text{inaccurate}}),误差无法收敛至目标阈值(0.2),证明了模型的敏感性,突显无模型方法的优势。

五、研究结论与价值

  1. 科学价值

    • 提出两种无模型POILC算法,克服对精确模型的依赖,适用于工业机器人等高精度控制场景。
    • RL策略梯度方法在ILC中的应用,拓展了数据驱动控制与机器学习的结合方式。
  2. 应用价值

    • 数据驱动POILC可应用于无法建模或模型复杂的系统,如柔性机械臂、生物医疗设备等。
    • RL-POILC适用于自适应优化需求较高的场景,随着算法优化(如更复杂的策略函数),可进一步提升性能。

六、研究的创新点

  1. 方法论创新

    • 数据驱动POILC:首次提出“扰动实验+优化”的无模型策略,理论保证收敛等价于模型方法。
    • RL-POILC:首次将策略梯度优化引入POILC,探索了强化学习在ILC中的潜力。
  2. 实验结果启示

    • 函数逼近器数量(m=20)能显著加速RL收敛,说明参数化策略的设计对无模型控制至关重要
  3. 工业可行性

    • 数据驱动POILC 计算量可控,RL-POILC虽训练较慢,但可离线优化后部署,适用于高精度重复任务(如半导体制造、3D打印等)。

七、未来研究方向

  1. RL优化策略的改进(如Actor-Critic方法)
  2. 在线自适应POILC(结合实时模型辨识技术)
  3. 多智能体ILC扩展(协作式机器人控制)

该研究为无模型高性能控制提供了新思路,值得进一步推广和应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com