非线性系统的数据驱动内模学习控制

分享自：
非线性系统的数据驱动内模学习控制

期刊:IEEE Transactions on Neural Networks and Learning SystemsDOI:10.1109/TNNLS.2023.3331367
作者与单位：本研究的作者为Huimin Zhang、Ronghu Chi（IEEE会员）与Biao Huang（IEEE Fellow）。Huimin Zhang与Ronghu Chi来自中国青岛科技大学自动化与电子工程学院；Biao Huang来自加拿大阿尔伯塔大学化学与材料工程系。该研究论文发表于《IEEE Transactions on Neural Networks and Learning Systems》期刊，卷36期1，出版时间为2025年1月。论文的收稿日期为2022年9月19日，最终接受于2023年11月5日，在线发表于2023年11月16日。
研究背景与目标：本研究属于自动控制领域，具体聚焦于数据驱动控制（Data-Driven Control）、迭代学习控制（Iterative Learning Control, ILC）以及内模控制（Internal Model Control, IMC）的交叉方向。其核心研究动机源于解决现有控制方法在应对重复性任务时的局限性。
传统的时间域控制策略，如模型预测控制（Model Predictive Control）和PID控制，在一个有限时间窗口内执行任务时，只能保证有界的控制精度，即使系统反复执行相同任务，性能也无法通过历史经验迭代提升。经典的迭代学习控制虽然能从历史操作中学习以提升性能，但其一个根本前提是系统运行环境必须是严格重复的，即初始状态、系统不确定性、外部扰动及目标轨迹在每次迭代中都必须完全相同。这一条件在实际应用中往往过于严苛，难以满足。
另一方面，内模控制作为一种经典的控制框架，在应对系统不确定性方面具有优势，通常包含一个由过程模型求逆得到的控制器和一个补偿器，分别用于提升响应速度和鲁棒性。已有研究尝试将IMC与ILC结合，但这些方法通常将内模控制器用作反馈环节来补偿不确定性，其本质类似于带反馈的ILC方法。当系统不确定性随迭代变化时，这种反馈机制本身缺乏从历史迭代中学习的能力，因而性能会下降。更关键的是，现有的IMC-based ILC方法大多依赖已知的、精确的线性模型来构建内模并进行求逆，这使得其性能严重依赖于模型的准确性，且模型求逆计算复杂。此外，近期出现了一些基于高阶内模（High-Order Internal Model, HOIM）的ILC方法，它们通过自回归模型和基函数来描述迭代变化的轨迹或不确定性，避免了模型求逆，但这些方法依然主要面向线性或参数化模型，且如何选择合适的高阶内模型结构（包括基函数）本身是一个难题。
尽管数据驱动的ILC方法已有所发展，但如何在一个纯粹数据驱动的框架内，有效处理迭代变化的非重复性不确定性，同时避免复杂的内模求逆计算，仍是一个开放挑战。因此，本研究的目标是：针对一类遭受未知、非重复性不确定性影响的非线性非仿射系统，开发一种新颖的数据驱动内模学习控制策略。该策略旨在融合内模控制对不确定性的补偿优势与迭代学习控制从历史数据中学习的能力，同时摆脱对显式机理模型的依赖，实现完全基于输入-输出数据的设计与分析。
详细研究流程与方法： 本研究的主要流程包含理论推导、控制器设计、收敛性分析和仿真验证四个核心部分。研究的“对象”是满足特定数学假设的一类非线性非仿射离散时间系统，其数学形式由论文中的方程(1)定义。系统在每个批次（迭代）i中，在有限时间区间k=0到N上重复运行。该模型包含了未知的非线性函数f(·)以及迭代相关的干扰d_i(k)。
研究的首要步骤是建立系统的数据模型。研究者采用了一种迭代动态线性化方法（Iterative Dynamic Linearization, IDL），这是一种无模型技术。在满足“系统函数对输入的偏导数连续”和“系统广义Lipschitz”两个基本假设的前提下，通过引理1证明，原非线性系统可以等价地转化为一个迭代线性数据模型（Iterative Linear Data Model, ILDM），即方程(2)：Δy_i(k+1) = φ_i(k) Δu_i(k) + Δd_i(k+1)。其中，Δ表示迭代间的差分运算（如Δu_i(k) = ui(k) - u{i-1}(k)），φ_i(k)是一个伪梯度（Pseudo-Gradient）参数，它将所有未建模的非线性动态和系统特性压缩其中，且具有二维特性（即随时间k和迭代i变化）。这个ILDM揭示了系统在两个连续迭代间输入增量与输出增量之间的动态关系。该ILDM的标称形式（即忽略干扰项）被作者创新性地用作整个非线性系统的“内模”。与传统的基于机理模型的内模不同，这个内模是一个纯粹虚拟的、存在于计算中的数据模型，仅用于后续控制器的设计和分析。
接着，研究设计了针对伪梯度参数φ_i(k)的迭代自适应更新机制，如方程(9)和(10)所示。该机制仅利用系统的输入-输出数据，通过一个带投影（重置）算法的递推公式在线估计φ_i(k)。重置算法确保了估计值能够跟踪这个迭代和时间变化的参数，并保持其符号不变，这对于控制器的稳定性至关重要。利用参数估计值φ̂_i(k)，可以将系统输出重写为方程(11)：yi(k+1) = y{i-1}(k+1) + φ̂_i(k)Δu_i(k) + ξ_i(k)。其中，ξ_i(k)被定义为系统的总不确定性，包含了模型-对象失配误差(φ_i(k)-φ̂_i(k))Δu_i(k)和外部干扰增量Δd_i(k+1)。
基于此框架，本研究提出了数据驱动内模学习控制（Data-Driven Internal Model Learning Control, DIMLC）策略。控制器的结构如图1所示，其增量控制输入由两部分组成：Δui(k) = Δu{n,i}(k) + Δu{c,i}(k)。第一部分是标称控制器Δu{n,i}(k)，它是通过内模（即ILDM的标称形式）的逆，基于等效反馈原理（Equivalent-Feedback-Principle）设计的，如方程(14)所示：Δu{n,i}(k) = α e{i-1}(k+1) / (c_1 + φ̂i(k))。其中，e{i-1}(k+1)是前一迭代的跟踪误差，α和c1是正常数。该控制器的目标是实现输出对目标轨迹的完美跟踪。第二部分是补偿控制器Δu{c,i}(k)，其设计目标是抵消总不确定性ξ_i(k)。由于ξi(k)在当前迭代k时刻不可得，研究者利用其前一迭代的值ξ{i-1}(k)进行近似补偿，得到补偿控制器如方程(25)：Δu{c,i}(k) = -β ξ{i-1}(k) / (c_2 + φ̂_i(k))。其中β和c_2为正常数。
最终，完整的DIMLC控制律由方程(26)给出：ui(k) = u{i-1}(k) + ai(k)e{i-1}(k+1) - pi(k)ξ{i-1}(k)，其中a_i(k)和p_i(k)由估计参数φ̂_i(k)和常数α, c_1, β, c_2计算得到。整个控制算法由参数估计算法（9）、（10）和控制律（26）构成，完全基于数据驱动。
在理论分析部分，研究者首先在定理1中分析了无干扰情况下仅使用标称控制器的收敛性和稳定性。通过选择合适的控制参数（如c_1 > αb_φ/2，其中b_φ是φ_i(k)的上界），证明了跟踪误差沿迭代方向收敛到零，系统是输入输出有界稳定的，并且输出估计误差也收敛到零。随后在定理2中，分析了在非重复干扰下使用完整DIMLC的收敛性。通过更严格的参数选择条件（c_1 > α * max{bφ, b{φ̂}} 且 c_2 > β * max{bφ, b{φ̃}}），并借助一个关于高维差分方程的引理2，证明了即使存在非重复不确定性，跟踪误差也是有界收敛的，系统保持BIBO稳定。
为了验证理论结果，研究进行了两个仿真案例的数值实验。实验对象并非物理实体，而是作为“测试平台”的数学模型。案例一采用了一个结构分段变化、参数时变的非线性非仿射模型（方程41）。研究设置了三种场景：1）无外部干扰；2）存在梯形状的迭代变化干扰；3）存在余弦形状的迭代衰减干扰。在每种场景下，分别应用所提出的标称DIMLC和完整DIMLC，并与两种现有先进方法——无模型自适应ILC（MFAILC，方程42）和高阶内模型数据驱动ILC（HOIM-DDILC，方程43-45）——进行性能对比。评价指标包括最大绝对跟踪误差随迭代的变化曲线、误差总和以及计算时间。案例二采用了一个更接近实际应用的蒸汽-水换热器模型（方程46，源自文献[44]）。同样测试了无干扰和有随机干扰的情况，并与MFAILC进行对比。所有仿真均在MATLAB环境中进行，并记录了计算时间以评估算法复杂度。
主要结果： 仿真结果有力地支持了理论分析，并展示了所提DIMLC方法的优越性。 在案例一的无干扰场景下，标称DIMLC能够快速、精确地跟踪目标轨迹，其最大跟踪误差随迭代迅速收敛到接近零的水平（见图3实线）。参数估计φ̂_i(k)表现出预期的二维时变特性（见图2）。输出估计误差也收敛到零（见图4），验证了ILDM对非线性系统的良好逼近能力。与MFAILC和HOIM-DDILC相比，标称DIMLC在收敛精度（更小的误差总和e*_max，见表I）和计算效率（更短的计算时间，见表I）方面均表现更优。这表明，直接利用ILDM作为内模并进行逆设计的思路，在无模型失配时具有优势。 在案例一的梯形状干扰场景下，仅使用标称控制器时，输出轨迹在干扰发生的迭代区间会出现明显的瞬态偏差（见图5中Nominal DIMLC曲线）。而应用完整的DIMLC（包含补偿器）后，系统输出在整个时间区间内都能紧密跟踪目标轨迹，几乎不受干扰影响（见图5中Entire DIMLC曲线）。同时，控制输入保持有界（见图6）。MFAILC在此场景下的性能则明显逊色（见图5中MFAILC曲线）。误差总和与计算时间的对比数据（见表II）也证实了完整DIMLC在处理非重复干扰方面的有效性和实用性。在余弦形干扰场景下，完整DIMLC同样表现出了良好的收敛性能（见图7）。 在案例二的换热器模型测试中，无论是无干扰还是加入随机干扰的情况，所提出的DIMLC方法（标称版或完整版）都实现了比MFAILC更优越的跟踪性能（见图9, 11）。这初步证明了该方法在更具现实意义的模型上的适用性。
这些结果逻辑连贯：首先，IDL和ILDM的建立为整个控制框架提供了数据基础；其次，基于ILDM内模的标称控制器在理想情况下证明了完美的跟踪能力；然后，针对非重复不确定性设计的补偿控制器在实际干扰场景中弥补了标称控制器的不足；最后，在两个具有不同非线性特性的数学模型上的成功仿真，验证了所提方法不依赖于具体模型形式的普适性和鲁棒性。所有结果共同支撑了论文的核心结论。
结论与价值：本研究成功开发了一种针对受非重复不确定性影响的非线性非仿射系统的数据驱动内模学习控制策略。其主要科学价值和应用价值体现在： 1. 方法论创新：提出了一种全新的“数据驱动内模”概念。该内模源自对系统输入输出数据的动态线性化，而非先验的机理模型，从而真正实现了控制器的完全数据驱动设计。同时，通过迭代自适应机制在线更新该内模，增强了其应对不确定性的能力。 2. 控制结构创新：所提出的DIMLC清晰地区分了标称跟踪控制器和不确定性补偿控制器。与现有将IMC作为反馈控制器嵌入ILC的方法不同，本研究的补偿器是一个基于前次迭代不确定性估计的前馈学习项，使得控制器整体具备了沿迭代方向学习并补偿非重复扰动的能力。 3. 理论贡献：在仅依赖系统I/O数据的前提下，建立了完整的收敛性分析框架，证明了在所设计控制律下，系统在非重复不确定性下的有界收敛性和BIBO稳定性。 4. 应用潜力：该方法无需系统机理模型，避免了复杂的模型求逆运算，计算简单（不涉及向量或矩阵运算），使其特别适合于模型复杂、难以精确建立或具有时变不确定性的大型工业过程控制，如化工过程、机器人操作、精密运动控制等需要重复执行任务的场合。
研究亮点： 1. 核心创新点：首次将迭代动态线性化得到的线性数据模型（ILDM）的标称形式作为系统的内模，并在此基础上构建了完整的数据驱动内模学习控制框架。这是对传统内模控制理念的一次重要拓展，使其从模型驱动范式走向数据驱动范式。 2. 有效解决关键问题：该方法能够有效处理迭代变化的非重复性不确定性，克服了传统ILC要求严格重复运行条件和现有IMC-based ILC方法依赖精确模型、计算复杂且对迭代变化不确定性处理能力不足的缺陷。 3. 理论与实践的平衡：不仅提供了严格的理论收敛性证明，还通过包含不同非线性特性和干扰类型的仿真案例，全面验证了方法的有效性、鲁棒性和相对于其他先进方法的优越性。 4. 实用性设计：控制律和参数估计算法形式简洁，仅使用标量运算，计算负担轻，便于在实际工程系统中实现。
其他有价值内容：论文在引言部分对ILC、IMC以及两者结合的研究现状进行了较为全面的梳理和评述，清晰地指出了各类方法的优势与局限，为本研究的立项提供了充分的论证基础。此外，论文明确列出了本研究的三点主要贡献，有助于读者快速把握其创新之处。仿真部分设置了详细的对比实验，并采用了多种性能指标（误差曲线、误差总和、计算时间）进行综合评价，增强了结果的说服力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问