本文档属于类型a,即报道一项原创性研究。以下为学术报告内容:
IEEE Transactions on Automation Science and Engineering 2025年刊载橡胶混炼批次过程强化学习迭代学习预测控制方法研究
1. 研究团队与发表信息
本研究由南京科技大学的Wenmin He、Ying Pan和Cuimeo Bo(通讯作者)合作完成,论文《Iterative Learning Predictive Control Method Based on Reinforcement Learning for Rubber Mixing Batch Process》发表于2025年《IEEE Transactions on Automation Science and Engineering》第22卷。研究得到国家重点研发计划(2022YFB3305300)、国家自然科学基金(62173178, 62333010)和江苏省高校自然科学研究项目(24KJB510008)支持。
2. 学术背景与研究目标
橡胶混炼作为轮胎制造的核心工序,其温度控制直接影响产品黏度、弹性和强度等性能指标。由于该过程具有非线性、时变性和批次间扰动大等特性,传统控制方法难以实现精确温控。已有研究多关注基于模型预测控制(Model Predictive Control, MPC)和神经网络的方法,但存在模型失配应对能力不足的问题。本文旨在提出融合强化学习(Reinforcement Learning, RL)的迭代学习模型预测控制(ILMPC)框架,通过数据驱动自适应学习提升对非重复扰动的鲁棒性,解决传统方法依赖精确模型的局限性。
3. 研究方法与流程
研究分为四个核心步骤:
3.1 热力学机理建模
基于能量守恒定律建立混炼过程的三阶微分方程模型(式1),描述转子转速(n)与冷却水流量(ql)对腔体温度(t1)、腔壁温度(t2)和冷却水温度(t3)的动态影响。通过离散化处理得到增量式状态空间模型(式2),其中非线性项f(·)用于表征非重复性扰动。
3.2 二维增量模型构建
提出双域广义误差状态空间模型(式3),同时刻画时间轴和批次轴上的误差传播。通过相邻批次误差动态模型(式4)量化迭代域控制性能,其中∆uk(t)为控制输入差分,∆xk(t)为状态差分。
3.3 ILMPC控制器设计
在预测时域(nx=30)和控制时域(nu=10)内建立预测误差模型(式5)。引入卡尔曼滤波器(式15-17)估计扰动协方差,求解离散代数Riccati方程(DARE)获得稳态增益。控制律(式20)通过二次性能指标函数(式9)优化求解,权重矩阵设为rx=I, ru=0.1I。
3.4 SAC强化学习补偿机制
采用Soft Actor-Critic(SAC)算法构建RL补偿器:
- 状态设计:融合当前批次输出yk(t)、参考轨迹yrk(t)和历史控制量(式37)
- 动作生成:策略网络输出补偿量ak(t)(式38)
- 奖励函数:以跟踪误差平方的负值为激励(式39)
- 网络更新:双评论家架构(θ1,θ2)通过最小化Bellman残差(式31)提升稳定性,策略网络(φ)通过KL散度优化(式34)平衡探索与利用。
4. 关键实验结果
4.1 重复扰动测试
当第4批次引入+3°C恒定扰动时,RL-ILMPC的overshoot较基础ILMPC降低62%,调节时间缩短45%(图4)。控制输入曲线显示SAC补偿器在批次间快速收敛(式42)。
4.2 非重复扰动测试
对于随机振幅扰动wk(t)(式43),20批次实验表明:
- RMSE指标:RL-ILMPC在第6批次即收敛至0.12,而传统ILMPC需9批次(图7)
- 学习效率:平均奖励(avgr)在20轮训练后稳定在-1.2以下(图6),证明策略的有效性
4.3 对比实验
与文献[36]的2DILC-RL方法相比,本文方法在突变参考轨迹(式46)下的跟踪误差降低37%(表III),归因于双域误差模型的泛化能力(贡献点i)和RL-MPC协同机制(贡献点ii)。
5. 研究结论与价值
科学价值:
1. 提出首个适用于橡胶混炼过程的RL-ILMPC框架,通过SAC算法的熵正则化机制(式28)解决工业过程探索受限问题
2. 理论证明闭环系统收敛性(定理1),要求矩阵ω谱半径ρ(ω)<1
应用价值:
1. 实际工业数据显示,该方法可将混炼温度波动控制在±0.5°C内,优于人工控制的±2°C
2. 计算复杂度分析表明,在线推理时延<50ms,满足实时控制需求
6. 研究亮点
- 创新性:首次将SAC算法的最大熵优化(式30)与传统ILMPC结合,形成结构化基线约束下的安全探索机制(贡献点iii)
- 方法论:设计的双域增量模型(式3)同时包含批内误差和批间误差,较文献[17][21]模型提升泛化性
- 工程意义:针对冷却水流量-转子转速耦合问题,通过热阻系数k2的动态辨识(表I)增强模型适应性
7. 其他发现
研究揭示:当模型失配度σ>0.02(式43)时,纯ILMPC会出现稳态误差,而RL补偿器可通过批次学习实现误差抑制(图5b)。这为化工批次过程的智能控制提供了新思路。