分享自:

基于强化学习和Koopman算子的非线性批次过程迭代学习控制

期刊:journal of process controlDOI:10.1016/j.jprocont.2025.103402

本文档属于类型a:单篇原创研究的学术报告。以下是针对该研究的详细学术报告:


作者及发表信息

本研究由Hongfeng Tao(江南大学轻工过程先进控制教育部重点实验室)、Yuan Huang(江南大学)、Tao Liu(大连理工大学先进控制技术研究所)和Wojciech Paszke(波兰绿山大学自动化、电子与电气工程研究所)合作完成,发表于Journal of Process Control第148卷(2025年),文章编号103402。


学术背景

研究领域:本研究属于非线性批次过程控制领域,聚焦于迭代学习控制(Iterative Learning Control, ILC)深度强化学习(Deep Reinforcement Learning, DRL)的融合,并结合Koopman算子理论解决工业批次过程中的非重复性不确定性问题。

研究动机:传统ILC方法依赖严格的重复性假设,难以应对实际生产中因环境变化或机械误差导致的非重复性扰动。此外,非线性批次过程的高维特性进一步增加了控制设计的复杂度。

理论基础
1. Koopman算子理论:通过将非线性系统提升至无限维线性空间,实现全局线性化。
2. 深度强化学习(DRL):结合神经网络与强化学习,解决连续状态空间下的决策优化问题。
3. 二维系统理论(2D System Theory):用于分析ILC在时间和批次方向上的收敛性。

研究目标:提出一种基于Koopman算子的DRL-ILC混合控制框架,以提升非线性批次过程在非重复性扰动下的跟踪性能。


研究流程

1. 非线性系统的Koopman线性化建模

  • 方法:采用深度扩展动态模态分解(Deep-EDMD)构建数据驱动模型。
    • 网络设计:使用线性层神经网络拟合Koopman特征函数,损失函数包含重构能力、前向预测能力和系统可控性三部分(公式12-15)。
    • 训练数据:通过非线性系统的离散化模型生成控制输入随机采样数据(范围±10^4),训练至损失值低于阈值(𝐿<0.5)。
  • 结果:获得高维线性状态空间模型(公式11),其输出与原非线性系统的误差小于5%(图6)。

2. 2D ILC控制器设计

  • 控制律:结合PD型ILC(公式18)与批次间更新策略(公式17),通过线性矩阵不等式(LMI)分析收敛条件(定理1)。
  • 关键参数:增益矩阵𝐾₁、𝐾₂、𝐾₃通过LMI求解(公式29),确保名义系统稳定性。

3. DRL补偿器开发

  • 算法选择:采用Soft Actor-Critic(SAC)算法,引入策略熵以增强探索能力。
  • 状态与奖励设计
    • 状态:包含前一批次和当前批次的历史控制输入、输出及参考轨迹(公式42)。
    • 奖励:基于跟踪误差和状态变化的L2范数(公式43)。
  • 训练阶段
    • 离线训练:在虚拟线性化环境中训练至平均奖励𝑟𝑎𝑣>−0.1。
    • 在线微调:在非线性系统中进一步优化,直至RMSE(均方根误差)𝐼𝑘<0.1。

4. 仿真验证

  • 对象:连续搅拌釜反应器(CSTR,公式45),加入非重复性扰动(如高斯噪声和时变扰动)。
  • 对比方法:P型ILC、PD型动态迭代线性化ILC。
  • 性能指标:输出跟踪误差和收敛速度(图7-9)。

主要结果

  1. 模型精度:Koopman线性化模型的输出误差小于5%,显著优于基于平衡点线性化的传统方法(图6)。
  2. 控制性能
    • 提出的ILC-DRL方案将跟踪误差降低90%以上(图9),且在非重复性扰动下无持续振荡。
    • SAC补偿器通过离线-在线两阶段训练快速收敛(图10),优于文献[13]的纯DRL方法。
  3. 理论贡献
    • 证明了基于Koopman算子的ILC收敛性(定理1),并通过LMI给出可解条件。
    • 提出DRL补偿信号的高斯分布特性可有效抑制随机噪声(公式41)。

结论与价值

科学价值
1. 首次将Koopman算子与DRL结合用于非线性批次控制,实现了高精度全局线性化和非重复性扰动补偿。
2. 为高维非线性系统的控制设计提供了可扩展的理论框架。

应用价值
1. 适用于化工、机器人等领域的批次过程优化,如CSTR的温度控制(图8)。
2. 所提方法可推广至其他具有时变不确定性的复杂系统。


研究亮点

  1. 方法创新
    • 结合Koopman算子的数据驱动建模与DRL的实时补偿,突破了传统ILC的线性化局限。
    • 提出两阶段训练策略,平衡了离线效率与在线适应性。
  2. 性能优势
    • 在CSTR案例中,跟踪误差较现有方法降低90%,且收敛速度更快(图7)。
  3. 理论严谨性:通过LMI严格证明了闭环系统的收敛条件(定理1)。

其他有价值内容

  • 局限性:Koopman网络和DRL的离线训练需大量数据,未来可探索小样本学习方法。
  • 扩展方向:建议采用LSTM等网络替代线性层以处理更高维非线性问题。

(报告总字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com