非重复连续时间学习控制系统的迭代校正方法

分享自：
非重复连续时间学习控制系统的迭代校正方法

期刊:ieee transactions on cyberneticsDOI:10.1109/tcyb.2021.3086091
本文旨在向广大科研工作者介绍一篇关于迭代学习控制（Iterative Learning Control, ILC）领域的重要研究论文。这篇论文题为 “迭代整流方法用于非重复连续时间学习控制系统” （*Iterative Rectifying Methods for Nonrepetitive Continuous-Time Learning Control Systems*），发表于 IEEE Transactions on Cybernetics 期刊，卷53，期1，出版时间为2023年1月。论文的作者是北京航空航天大学第七研究部和自动化科学与电气工程学院的 张靖尧 和 孟德元（IEEE高级会员）。本报告将对该研究进行详细介绍。
一、研究背景与动机
迭代学习控制是自动控制领域中的一种有效方法，特别适用于在固定时间区间内重复运行的系统，能够通过学习过往运行数据来逐步提升对固定轨迹的跟踪精度，已成功应用于机器人、硬盘驱动、高速列车、批处理过程等多个场景。传统ILC理论建立在一个基本且严格的假设之上：被控系统必须具备严格的可重复性，即系统的动态模型、环境及任务必须在每一次迭代运行中都保持不变。这一假设极大地限制了ILC在现实复杂系统中的应用，因为在实际工程中，系统的模型参数、初始状态、外部负载和测量干扰、期望参考轨迹等，都可能随运行批次（迭代次数）的不同而变化，即具有非重复性。
先前的研究虽然已经在一定程度上放宽了对严格重复性的要求，例如考虑了非重复的初始状态、外部扰动等，但其核心应用仍然严重依赖于系统模型的严格可重复性，即使模型本身可以是不确定的，但要求在迭代间保持不变。然而，在实际工业过程（如注塑成型、地铁列车系统）中，模型非重复性是无法忽视的现实。近年来，针对离散时间系统的非重复模型不确定性问题，研究者们已取得了一些成果，例如通过扩展收缩映射（ECM）或系统等价变换（SET）等方法进行分析。但是，这些基于离散时间系统特性的分析方法（如时间步归纳法、提升技术）无法直接推广到连续时间系统，因为连续时间系统具有无限的时间点，使得离散时间的分析方法失效。
因此，一个核心的、悬而未决的理论问题摆在了面前：面对系统模型、初始状态、内外扰动及参考轨迹均存在非重复性不确定性的连续时间系统，能否设计有效的迭代学习控制律，并保证系统所有信号的有界性及跟踪任务的鲁棒收敛？ 本文正是为了回答这一问题而展开的研究。
二、研究目标与方法流程
本研究的核心目标是：针对一类具有非重复不确定性的多输入多输出（MIMO）连续时间系统，设计一种能够同时保证系统轨迹有界和实现鲁棒跟踪的迭代学习控制方案。研究的主要方法流程包括以下几个关键步骤：
1. 问题建模与目标定义： 研究者考虑了一类在有限时间区间上运行的连续时间MIMO不确定系统（公式1）。该系统的状态空间矩阵 (A_k, B_k, C_k)、初始状态 (x_k(0))、负载扰动 (w_k(t))、测量扰动 (v_k(t)) 以及期望参考轨迹 (r_k(t)) 均是依赖于迭代次数 (k) 的非重复量，即它们都包含一个名义部分和一个有界的非重复不确定性部分（公式2）。研究提出了非重复不确定性的有界性假设（A1）。控制目标是驱动系统输出 (y_k(t)) 尽可能精确地跟踪期望参考 (r_k(t))。
为了精确描述目标，研究引入了两个关键定义： * 定义1（轨迹有界性）： 要求系统的状态、输入和输出在整个迭代过程和时间内一致有界。 * 定义2（鲁棒跟踪）： 要求存在一个小的初始时间段 (h) 之后（(t \in [h, T])），跟踪误差 (e_k(t) = r_k(t) - y_k(t)) 随着迭代增加能收敛到一个与不确定性变化量上界相关的有限界内（公式8）。特别地，如果非重复不确定性的变化量（而非其绝对值）最终趋于零，则能实现完美跟踪（公式9）。这比先前文献要求不确定性本身趋于零的条件更为宽松。
2. 控制律设计与创新机制： 针对系统具有非零相对阶（A2假设，即 (C_k B_k) 行满秩）的情况，控制输入无法直接影响初始时刻的输出。为了解决非重复初始状态等因素导致的初始跟踪误差 (ek(0)) 无法被控制的问题，研究者没有直接沿用离散时间系统中常见的P型更新律，而是提出了一种带有迭代整流机制的D型更新律（公式10）： [ u{k+1}(t) = u_k(t) + \Gamma [\dot{e}_k(t) + \theta(t) e_k(0)] ] 其中，(\Gamma) 是迭代不变的增益矩阵，而 (\theta(t)) 是一个关键的整流函数。该函数在初始短暂区间 ([0, h)) 内非零，满足 (\int_0^h \theta(t) dt = 1)，在区间 ([h, T]) 内为零。例如，(\theta(t)) 可选取为二次函数形式（公式11）。这一设计是本研究的核心创新之一。它通过引入 (\theta(t) e_k(0)) 项，巧妙地构建了一个修正的期望参考轨迹 (\bar{r}_k(t))（公式13）和一个修正的跟踪误差 (\bar{e}k(t))（公式14）。经过变换，新的更新律形式上变为 (u{k+1}(t) = u_k(t) + \Gamma \dot{\bar{e}}_k(t))（公式16），并且 (\bar{e}_k(0) = 0)， (\bar{e}_k(t) = e_k(t), \forall t \in [h, T])。这一变换将原问题转化为分析 (\bar{e}_k(t)) 的收敛性，从而绕过了初始误差不可控的障碍。
3. 系统等价变换与有界性分析： 对于MIMO系统，在有界性和收敛性分析中可能会遇到条件矛盾的问题。为此，研究者采用了系统等价变换（SET）方法。他们首先为增益矩阵 (\Gamma) 的选取设定了一个条件：(|I - C_k B_k \Gamma| \le \rho < 1, \forall k)（公式22），这保证了学习算法的基本收敛性。
随后，在定理1中，他们构造了一个非奇异线性变换矩阵 (P)，将原系统的控制输入 (u_k(t)) 变换为 (u_k^(t) = P u_k(t))。这个变换揭示了一个关键性质：变换后的输入向量 (u_k^(t)) 可以被分解为两部分，其中一部分 (u{k,2}^*(t)) 在整个迭代过程中是保持不变的（公式27），而另一部分 (u{k,1}^(t)) 则按照一个简化的更新律进行迭代更新（公式28）。更重要的是，原系统被等价地转化为一个仅由 (u_{k,1}^(t)) 驱动的新系统（公式29）。
这一变换的威力在于，它解决了直接对原更新律（公式23）进行收缩映射分析时可能遇到的条件冲突（即公式25与公式22可能矛盾）。通过SET，研究者成功地将分析焦点转移到了 (u_{k,1}^*(t)) 上，而对它的分析可以直接利用条件（22）。
在定理2中，基于SET的结果和上述增益条件，研究者综合运用λ-范数技术和收缩映射原理，严格证明了在存在多种非重复不确定性的情况下，应用所提出的D型ILC律，能够保证连续时间系统的所有信号（状态、输入、输出）在整个迭代过程中一致有界。
4. 鲁棒收敛性证明： 在证明了系统轨迹有界的前提下，研究者进一步分析修正跟踪误差 (\bar{e}_k(t)) 的动态方程（公式20）。该方程包含了与有界系统轨迹 (x_k(t), u_k(t)) 以及各种非重复不确定性变化量相关的项。通过细致的推导，研究者得到了关于 (\bar{e}_k(t)) 的λ-范数的递推不等式（公式61）。再次应用收缩映射原理，并取极限上确界，最终在定理3中证明了：只要增益条件（22）满足，系统的输出就能实现定义2中的鲁棒跟踪。具体而言，跟踪误差在 (t \in [h, T]) 上最终收敛到一个与各非重复不确定性变化量的极限上界相关的有限界内。若这些变化量最终趋于零，则实现完美跟踪。
5. 对其他情形的扩展讨论： 为了使研究更完整，论文还简要讨论了两种扩展情况： * 零相对阶系统（Corollary 1推论1）： 对于输出方程中包含直接馈通项 (D_k uk(t)) 的系统，由于其相对阶为零，输入能直接影响输出。因此，无需整流机制，直接采用P型更新律 (u{k+1}(t) = u_k(t) + \Lambda e_k(t))，并在类似条件下，同样可以证明轨迹有界性和鲁棒跟踪性。 * 非线性系统（Corollary 2推论2）： 对于满足全局Lipschitz条件的非线性连续时间系统，在非零相对阶假设下，应用本文提出的带整流机制的D型更新律，在相同增益条件下，结论（轨迹有界、鲁棒跟踪）仍然成立。
三、主要结果与支撑数据
本研究的理论成果主要体现为三个定理和一个推论，并通过两个仿真示例进行了验证。
定理1（系统等价变换）： 成功构造了变换矩阵 (P)，将原非重复MIMO系统解耦为一个具有迭代不变分量的等价系统。这是后续所有分析的基础。
定理2（轨迹有界性）： 严格证明了在非重复不确定性存在下，闭环系统所有信号的一致有界性。证明过程依赖于SET和λ-范数估计，关键步骤是得到了 (u_{k,1}^*(t)) 的λ-范数的递推不等式（公式49），并应用收缩映射引理得出其有界性，进而推得原系统信号的有界性。
定理3（鲁棒跟踪）： 核心结论。证明了跟踪误差满足 (\limsup{k \to \infty} \max{t \in [h,T]} |e_k(t)| \le \varepsilon)，其中 (\varepsilon) 是各非重复不确定性变化量极限上界的连续函数（公式64-65）。这定量描述了控制的鲁棒性能。
仿真验证（第IV部分）： 示例1（数值线性系统）： 对一个三维MIMO线性系统进行仿真，其所有矩阵元素、初值、扰动和参考轨迹均包含随机非重复扰动。采用提出的D型更新律（(h=0.1)）进行控制。图1显示系统状态、输入、输出的最大值随迭代变化保持有界；图2显示跟踪误差在 (t \in [0.1, 10]) 上迅速减小并收敛到一个很小的界内，且第50次迭代的输出能很好地跟踪期望参考（初始 (h) 时间段除外）。
示例2（单连杆机械臂非线性系统）： 对带有非重复负载质量、初始状态和扰动的非线性机械臂模型进行仿真。结果（图3, 图4）同样验证了轨迹有界性和鲁棒跟踪性能。
仿真结果以图像数据的形式直观支撑了理论定理的正确性和有效性。
四、结论与价值
本研究成功解决了连续时间迭代学习控制在面对多源非重复不确定性时的鲁棒分析与设计难题。主要结论是：通过引入一种创新的迭代整流机制，并融合系统等价变换（SET） 与收缩映射（CM） 的分析框架，可以为具有非零相对阶的连续时间系统设计D型ILC律。该控制律能在保证所有系统轨迹一致有界的条件下，实现对外部非重复干扰和内部模型非重复不确定性的鲁棒跟踪。即使不确定性不消失，只要其迭代间的变化足够小，跟踪误差就能收敛到相应的小范围内；若变化量趋于零，则能实现完美跟踪。
研究的科学价值与应用价值在于： 1. 理论突破： 填补了连续时间ILC在非重复模型不确定性方面系统化理论的空白，将离散时间系统的相关成果成功推广并适应于连续时间场景。 2. 方法创新： 提出的“迭代整流机制”巧妙处理了连续时间系统非零相对阶带来的初始误差难题；SET与CM相结合的分析方法，有效解决了MIMO系统有界性与收敛性分析中的条件矛盾问题，为后续研究提供了有力的分析工具。 3. 应用扩展： 极大地放宽了ILC对系统“严格重复”的假设，使其更适用于真实的、存在参数漂移、负载变化、环境波动的工业过程控制，如注塑机、化学反应釜、高性能运动平台等。 4. 结论更优： 对鲁棒跟踪的定义（依赖于不确定性变化量而非其绝对界）以及对完美跟踪所需条件（变化量趋于零而非不确定性本身趋于零）的阐述，比现有文献更为精确和宽松。
五、研究亮点
核心创新点明确： 针对连续时间系统非零相对阶的特性，原创性地提出了 “D型更新律 + 迭代整流函数 (\theta(t))” 的设计架构，这是区别于离散时间方案、解决连续时间特有问题的关键。
分析框架强大且统一： 创造性地将系统等价变换（SET） 应用于连续时间非重复MIMO系统的ILC分析，与收缩映射（CM） 结合，在一个统一的增益条件（22）下，同时完成了轨迹有界性证明和鲁棒收敛性证明，避免了条件冲突，论证严谨。
问题涵盖全面： 同时考虑了系统模型（(A_k, B_k, C_k)）、初始状态、负载/测量扰动、期望参考轨迹等多个维度的非重复不确定性，研究问题具有普遍性和实际意义。
理论完整性强： 不仅完成了主线（非零相对阶线性系统）的严格证明，还拓展讨论了零相对阶系统和非线性系统的情况，形成了较为完整的理论体系。
仿真验证充分： 通过线性和非线性两个例子，全面展示了所提方法在处理复杂非重复不确定性时的有效性和鲁棒性。
本文是一项在迭代学习控制领域具有重要理论贡献和实用价值的高水平研究，为处理现实世界中普遍存在的非重复性不确定问题提供了新的思路和坚实的理论保证。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问