分享自:

基于强化学习的无模型预测最优迭代学习控制

期刊:2022 American Control Conference (ACC)

学术研究报告:基于强化学习的无模型预测最优迭代学习控制方法

一、主要作者、机构及发表信息
本文由Yueqing Zhang、Bing Chu(英国南安普顿大学工程与物理科学学院)及Zhan Shu(加拿大阿尔伯塔大学电气与计算机工程系)合作完成,发表于2022年美国控制会议(*2022 American Control Conference, ACC*)。


二、学术背景与研究动机
科学领域与背景知识
研究属于控制理论领域,聚焦迭代学习控制(Iterative Learning Control, ILC)——一种针对重复任务的系统优化控制方法。传统ILC通过利用历史输入与误差数据提升跟踪精度,广泛应用于机器人、医疗康复、卫星编队等领域。

问题与目标
传统预测最优ILC(Predictive Optimal ILC)依赖系统模型设计控制器,而实际中模型获取可能成本高昂或不可行。本文旨在开发一种无模型(model-free)的预测最优ILC算法,结合强化学习(Reinforcement Learning, RL)技术,摆脱对模型的依赖,同时保持与传统模型方法相当的收敛性能。


三、研究流程与方法
1. 问题建模
- 系统描述:以离散线性时不变系统(LTI)为例,状态空间方程为
[ x_k(t+1) = Ax_k(t) + Bu_k(t), \quad y_k(t) = Cxk(t) ]
任务为跟踪参考信号( r(t) )。
- 目标函数:定义未来多批次试验的性能指标(含误差与输入变化惩罚项),最小化:
[ J
{k+1} = \sum{i=1}^\infty \gamma^{i-1} \left( |e{k+i}|Q^2 + |\Delta u{k+i}|_R^2 \right) ]
其中(\gamma)为折扣因子,(Q, R)为权重矩阵。

  1. 模型化方法

    • 马尔可夫决策过程(MDP)框架:将ILC问题重构为MDP,状态为误差( ek ),动作为输入增量(\Delta u{k+1}),奖励函数为( r(ek, \Delta u{k+1}) = |e_k|Q^2 + \gamma |\Delta u{k+1}|_R^2 )。
    • 贝尔曼方程:通过动态规划求解最优策略,导出价值函数( V(e_k) = e_k^T P e_k )及最优学习增益( L )。
  2. 无模型算法设计

    • Q学习(Q-learning):利用实验数据直接估计Q函数(状态-动作价值函数):
      [ Q^*(ek, \Delta u{k+1}) = \begin{bmatrix} ek \ \Delta u{k+1} \end{bmatrix}^T F \begin{bmatrix} ek \ \Delta u{k+1} \end{bmatrix} ]
      • 参数估计:通过最小二乘回归从数据中学习矩阵( F )。
      • 策略改进:更新控制策略( L{j+1} = -(F{22}^j)^{-1} F_{21}^j )。
    • 探索机制:添加高斯噪声( \epsilon_k )保证数据多样性。
  3. 数值验证

    • 仿真系统:SISO线性系统,跟踪正弦参考信号。
    • 对比实验:与传统模型方法、值迭代(Value Iteration)算法比较收敛速度与精度。

四、主要结果与分析
1. 收敛性证明
- 理论证明:算法收敛至最优学习增益( L ),且跟踪误差范数单调递减(几何收敛)。当(\gamma > 1)时,收敛速率达( 1/\gamma )。
- 数据支持:Q学习在621次实验后达到误差范数( 10^{-4} ),虽需更多数据,但无需模型先验。

  1. 性能对比
    • 模型方法(344次实验)与值迭代(345次实验)更快,但依赖精确模型;无模型Q-ILC在去除探噪后展现同等收敛性(图1)。
    • 图2显示学习增益( L )与矩阵( F )逐步收敛至理论值,验证算法稳定性。

五、结论与价值
1. 科学价值
- 首次将RL框架与ILC结合,提出无模型预测最优控制算法,填补了传统方法依赖模型的空白。
- 提供严格的收敛性分析,解决RL控制设计中理论验证难的挑战。

  1. 应用价值
    • 适用于模型难以获取的场景(如复杂机械系统、医疗设备),降低调试成本。
    • 扩展性强:可推广至时变系统、有限预测时域及约束优化问题。

六、研究亮点
1. 方法创新
- 通过MDP重构ILC问题,利用Q学习实现数据驱动的控制器优化。
- 提出混合探索-开发策略,平衡学习效率与稳定性。

  1. 理论贡献
    • 将LQR理论扩展至试验域(trial domain),建立ILC与RL的数学等价性。

七、其他价值
- 实验设计可复现:提供完整参数(如( Q = I )、( R = 50I )、(\gamma = 0.995)),代码易实现。
- 未来方向:提升数据效率(如结构化增益设计)、处理约束ILC问题。

(注:本文献引用自*ACC 2022*,编号3279-3284,版权归IEEE所有。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com