分享自:

切换系统的双变量迭代学习控制及迭代经验继承策略

期刊:automaticaDOI:10.1016/j.automatica.2025.112443

本文档属于类型a(单篇原创研究报告)。以下是针对《Automatica》期刊2025年发表的论文《Dual-Variable Iterative Learning Control for Switched Systems with Iteration Experience Succession Strategy》的学术报告:


作者与发表信息

本研究由Yiwen Qi(福州大学电气工程与自动化学院)、Caibin Yao(福州大学)、Choon Ki Ahn(韩国高丽大学电气工程学院)、Dong Shen(中国人民大学数学学院)、Ziyu Qu(沈阳航空航天大学自动化学院)合作完成,发表于《Automatica》第179卷(2025年),文章编号112443。


学术背景

研究领域
本文属于控制科学领域,聚焦于迭代学习控制(Iterative Learning Control, ILC)切换系统(Switched Systems)中的应用。

研究动机
实际工业系统中(如机器人、电机、交通系统),重复运行的系统常因安全等问题被迫提前终止迭代,导致每次运行的时长(Iteration Run Length)不一致。传统ILC假设固定迭代长度,无法处理此类问题。此外,现有研究多关注无限迭代下的渐近跟踪,而有限迭代内的性能优化更具工程意义。

研究目标
1. 提出迭代经验继承策略(Iteration Experience Succession Strategy, IESS),解决变长度迭代下的数据缺失问题;
2. 设计结合开环P型与闭环PD型的双变量ILC控制器,并利用强化学习(Reinforcement Learning, RL)动态优化控制器增益;
3. 理论证明跟踪误差的收敛性,并给出满足性能要求的最小迭代次数计算式。


研究流程与方法

1. 问题建模与控制器设计

  • 对象:离散时间切换系统(公式1),包含$g$个子系统,切换规则$\sigma(t)$任意。
  • 挑战:每次迭代的运行时长$tl$在$[t{\min}, t_{\max}]$内随机变化,导致数据不完整。
  • 控制器结构
    设计双变量ILC(DV-ILC)控制器(公式4与公式7),结合:
    • 开环P型:利用前次迭代误差$e_l(t+1)$;
    • 闭环PD型:当前迭代误差$e{l+1}(t)$及其差分$e{l+1}(t)-e_{l+1}(t-1)$。
  • 增益优化:通过深度Q网络(DQN)动态调整增益$k_1, k_2, k_3$,以最大化奖励函数(公式8),奖励基于跟踪误差阈值$\xi$。

2. 迭代经验继承策略(IESS)

  • 核心思想:若当前迭代$l$在$tl < t{\max}$时终止,缺失时段$(tl, t{\max}]$的数据用前次迭代$l-1$的对应时段填补(算法1)。
  • 优势:相比传统补偿方法(如末时刻补零或平均操作),IESS保留历史迭代的完整经验,加速收敛。

3. 强化学习优化流程(算法2)

  • 状态输入:误差$e_l(t)$、误差差分$e_l(t)-el(t-1)$、前次误差$e{l-1}(t+1)$及当前增益$k̃$。
  • 动作输出:增益增量$\Delta k̃$,通过$\epsilon$-贪婪策略(公式9)选择。
  • 训练过程:每轮ILC迭代中,DQN内循环$k=1000$次更新Q网络参数,优化控制器。

4. 收敛性分析与最小迭代条件

  • 定理1:在增益满足条件(公式10)时,$\lambda$-范数下的跟踪误差收敛至零(公式25)。
  • 定理2:给定衰减系数$\mu$与性能参数$\varphi$,最小迭代次数$L = \log_\mu e^{-\varphi} + 2$(公式26),确保有限迭代内误差满足$|e^L(t)| \leq \omega$。

主要结果与逻辑链

  1. IESS有效性验证(图4-6):

    • 在变长度迭代(如第7次完整、第16次提前终止)下,系统仍能高精度跟踪期望轨迹(图5-6)。
    • 对比传统补偿方法(零填充、末时刻填充、平均操作),IESS的跟踪误差收敛更快(图9-10)。
  2. DQN提升控制性能(图7-8):

    • 动态优化增益的ILC(DQN)比固定增益(P型)最大误差降低约40%,且收敛速度更快。
  3. 理论保证

    • 参数$\mu=0.9$、$\varphi=0.99$时,计算得$L=16$次迭代即可满足性能要求(图8),验证了最小迭代条件的实用性。
  4. 抗干扰测试(图12):

    • 加入随机噪声后,带差分项的PD型ILC性能虽有下降,但优于无差分项的简化控制器。

结论与价值

科学价值
1. 方法创新:首次将迭代经验继承与强化学习结合,解决变长度ILC问题;
2. 理论贡献:给出切换系统ILC的收敛性证明及有限迭代性能边界;
3. 工程意义:最小迭代次数公式为工业应用提供明确设计指南,节约计算资源。

应用前景
适用于需高精度重复控制的场景,如机器人轨迹跟踪、电力电子变换器控制(文中以Boost电路为例)等。


研究亮点

  1. 双重变量处理:同时解决变迭代长度变控制器增益问题;
  2. 混合控制结构:开环P型与闭环PD型协同,兼顾历史与当前信息;
  3. 数据驱动优化:ILC增益通过DQN自适应调整,突破传统固定参数限制;
  4. 可扩展性:方法可推广至其他具有随机终止特性的控制系统。

其他有价值内容

  • 实验细节:Boost转换器模型的参数(电感$L=10\text{H}$、电容$C=10\text{mF}$)贴近实际工程需求;
  • 代码开源:DQN实现细节(如网络结构:3隐藏层、每层10神经元)为复现提供参考。

(注:全文基于假设1-2与定义1-2展开,确保了理论严谨性。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com