针对非重复时变系统的迭代学习控制与参数估计方法研究报告
本文旨在向广大研究人员介绍一项近期发表于《journal of the franklin institute》期刊(2024年卷361期,第1455-1466页)的研究工作。该研究的标题为“iterative learning control with parameter estimation for non-repetitive time-varying systems”(面向非重复时变系统的迭代学习控制与参数估计),其主要作者团队包括来自无锡大学的Lei Wang,安徽工程大学的Ziwei Huangfu,南京信息工程大学的Ruiwen Li,香港理工大学的Xiewen Wen,以及苏州大学的Yuan Sun(通讯作者)和Yiyang Chen。
学术背景与研究动机
该研究隶属于控制科学领域,具体聚焦于迭代学习控制(Iterative Learning Control, ILC)这一重要分支。迭代学习控制是一种针对在有限时间区间内重复运行的动态系统的高性能控制策略,其核心思想是利用先前重复操作(或称“试验”)中积累的经验和输出误差,迭代地修正当前的控制输入,从而实现对期望轨迹的精确跟踪。ILC在机器人、运动控制、交通流控制等诸多领域有着广泛的应用背景。
然而,传统的迭代学习控制方法通常基于一个固定的名义系统模型进行设计。这在处理系统动态在多次重复运行中保持不变(即“重复”或“时不变”)的问题时非常有效。但在实际应用中,存在一类“非重复时变系统”(Non-repetitive Time-Varying Systems, NTVSs),其动态特性不仅随时间变化,而且在不同的重复试验(迭代周期)之间也发生变化(即“非重复”)。例如,康复训练中因肌肉疲劳导致的系统参数变化,或者电池放电过程中特性的衰减。对于此类系统,若继续使用固定模型,将会导致模型不确定性在迭代过程中不断累积,可能破坏传统ILC更新律的鲁棒收敛条件,导致控制性能下降甚至发散。
尽管已有研究尝试解决NTVS的ILC问题,例如文献[26]采用线性回归技术进行参数估计,但存在参数估计延迟和误差收敛慢的局限。为了克服这些挑战,本研究旨在扩展当前对ILC的理解,提出一种能够有效处理NTVS的新型控制算法。其核心目标是为NTVS实现跟踪误差的收敛,并同时精确估计其时变参数。
详细工作流程与实验设计
本研究的工作流程可以概括为几个核心环节:问题建模与框架构建、控制器与估计算法设计、理论收敛性与鲁棒性分析,以及最终的实验验证。
首先,问题建模。研究考虑了一类离散时间线性非重复时变系统,以状态空间形式给出。其特点是系统矩阵𝐴𝑘(𝑡)、𝐵𝑘(𝑡)、𝐶𝑘(𝑡)不仅随时间索引𝑡变化,还随试验(迭代)索引𝑘变化。在固定每次试验初始状态的假设下,研究将系统动态转化为算子表示形式,定义了跟踪误差,并明确了ILC设计目标是设计一个更新律,利用估计的系统算子𝐺𝑘和𝐻𝑘,迭代更新输入信号,使得输出渐近跟踪参考轨迹。
其次,核心算法设计。本研究的主要创新体现在将一种新颖的参数估计方法与一个扩展的ILC更新律相结合。具体步骤和算法如下: 1. 参数估计方法:为解决NTVS参数的非重复时变问题,研究提出采用反向传播(Back Propagation, BP)神经网络进行在线参数估计。更关键的是,为提高估计的精度和泛化能力,采用了贝叶斯正则化(Bayesian Regularization, BR) 训练机制来更新网络权重。BR通过在目标函数中引入权重衰减项(正则化项)和基于贝叶斯推断的动态调整超参数𝛼和𝛽,有效防止了过拟合,使得神经网络能够更准确地学习和预测系统参数的变化。该参数估计过程在每次迭代(试验)结束时进行,利用当前及历史输入输出数据来估计下一次试验所需的系统算子𝐺𝑘+1和𝐻𝑘+1。 2. ILC更新律设计:研究基于著名的范数最优ILC(Norm Optimal ILC) 框架进行扩展。针对NTVS中𝐺𝑘和𝐻𝑘随试验变化的特点,设计了一个包含系统参数变化量(𝜀𝐺𝑘+1 = 𝐺𝑘+1 − 𝐺𝑘, 𝜀𝐻𝑘+1 = 𝐻𝑘+1 − 𝐻𝑘)的更新律。更新律的形式为𝑢𝑘+1 = 𝑢𝑘 + 𝐺∗𝑘+1(𝐼 + 𝐺𝑘+1𝐺∗𝑘+1)−1(𝑒𝑘 − 𝜀𝐺𝑘+1𝑢𝑘 − 𝜀𝐻𝑘+1𝑥0)。该算法被整合在算法1中,其流程是:初始化后,在每次试验中,先用BP神经网络估计新的系统参数,然后用此估计参数计算新的控制输入𝑢𝑘+1,再将其应用于被控系统,记录输出和误差,如此循环直至达到最大迭代次数或满足精度要求。
第三,理论分析。研究通过定理1证明了在提出的更新律作用下,只要跟踪误差满足一个与参数变化量上界相关的条件,误差范数就能单调收敛。此外,考虑到实际系统中的模型不确定性(以乘性扰动𝛥和𝛯表示),研究通过定理2分析了算法的鲁棒性,给出了在存在模型不确定性和参数非重复变化情况下,误差仍能单调收敛的充分条件。
第四,实验验证。为了验证所提算法的可行性与有效性,研究在一个单块式XY平台(Monolithic XY Stage) 上进行了全面的实验。该实验平台包含两个垂直的运动轴,具有微米级精度。研究的实验对象即该XY平台的闭环控制系统。实验中,设定了一个包含正弦和余弦分量的二维期望参考轨迹。为了模拟非重复时变性,人为地将输入矩阵𝐵𝑘(𝑡)设置为随时间(𝑡)和试验(𝑘)变化的函数(例如含正弦和余弦变化)。神经网络结构设置为三层(输入层3个神经元,隐藏层6个神经元,输出层1个神经元),使用80%的数据训练,20%测试。研究者通过对比不同权重矩阵𝑄下的收敛速度、比较不同参数估计方法(本文的BP-BR、极限学习机ELM、传统机器学习ML)下的跟踪误差范数下降曲线,以及对比参数估计值与真实值的吻合程度,来全面评估算法性能。
主要结果分析
实验部分呈现了丰富的结果,有力地支撑了研究结论: 1. 跟踪性能:图3展示了算法1在不同ILC试验次数下的输出轨迹。可以清晰看到,随着迭代次数增加,系统输出轨迹快速逼近并最终精确跟踪上预定的参考轨迹,直观证明了该算法能够有效处理NTVS的跟踪问题,并实现高精度控制。 2. 收敛速度与设计自由度:图4比较了不同权重矩阵𝑄取值下的跟踪误差范数收敛曲线。结果表明,增大𝑄值(意味着在优化目标中更强调误差减少项)可以加快误差收敛速度,这为控制器设计提供了额外的灵活性,印证了论文提到的“获得了更多的设计自由度”。 3. 参数估计精度:图5展示了神经网络训练后预测输出与目标输出之间的拟合关系,所有数据集(训练、测试、整体)的决定系数𝑅²均大于0.95,表明基于BR的BP神经网络模型具有极佳的拟合能力,能够准确捕捉和预测时变参数的变化规律。 4. 算法对比优势:图6将所提算法(BP-BR结合ILC)与基于ELM估计的ILC以及基于ML估计的ILC进行了对比。结果显示,三种方法的误差范数初期均呈下降趋势,但所提算法的收敛速度显著快于其他两种方法,并且最终达到了更高的精度(在10⁻² mm至10⁻³ mm量级)。这归因于所提算法专为时变系统设计,其输入更新是基于更准确的参数估计,从而能更好地适应时变参数的变化,获得更优的跟踪效果。 5. 估计延迟改善:图7重点对比了采用传统ML方法和所提BP-BR方法进行参数更新时,估计值与真实值的跟随情况。结果表明,ML方法存在明显的估计延迟,而所提的BP-BR方法则显著改善了这一问题,能够更及时地跟踪参数的真实变化,这对于ILC的在线迭代更新至关重要。
研究结论与价值
本研究成功提出并验证了一种结合迭代学习控制与反向传播神经网络参数估计的新方法,用于解决非重复时变系统的精确跟踪控制问题。主要结论是:所设计的算法(算法1)通过整合前馈ILC更新律和基于贝叶斯正则化训练的BP神经网络参数估计器,能够在系统动态非重复变化的情况下,实现跟踪误差的快速、单调收敛,并且对模型不确定性表现出鲁棒性。实验证明,该算法在收敛速度和最终跟踪精度上均优于其他对比方法。
该研究的科学价值在于扩展了传统ILC的应用边界,为其处理更具挑战性的非重复时变系统提供了一个系统性的理论框架和切实可行的解决方案,特别是将神经网络与贝叶斯正则化引入ILC参数估计,提升了估计的准确性和泛化能力。其应用价值则体现在为现实世界中广泛存在的一类时变、特性漂移的系统(如机电系统老化、生物医学康复设备、能源系统等)提供了高性能的学习控制策略,有助于提升这类系统的自动化水平和控制精度。
研究亮点
未来工作展望
论文作者也坦诚指出了当前工作的局限性,主要在于参数估计仍可能存在误差。为此,他们提出了未来的研究方向: 1. 实验验证的深化:强调需要通过更多、更复杂的实际实验来验证算法的实用性。 2. 引入参数观测器:计划结合参数观测器技术,以进一步提高对时变系统参数数值估计的精度和实时性。 3. 性能指标优化:计划在ILC设计框架中引入更优化的性能指标(如最小化输入能量),以进一步提升控制系统的整体性能。