分享自:

基于深度强化学习的二维迭代学习控制在非重复不确定批次过程中的补偿研究

期刊:journal of process controlDOI:10.1016/j.jprocont.2023.103106

学术研究报告:二维迭代学习控制与深度强化学习补偿在非重复性不确定批次过程中的应用

一、作者及发表信息
本研究的作者为Jianan Liu、Zike Zhou、Wenjing Hong和Jia Shi(通讯作者),均来自厦门大学人工智能研究所、化学与生物工程系及福建省能源材料科学与技术创新实验室(IKKEM)。研究成果发表于2023年10月的《Journal of Process Control》(第131卷,103106页)。

二、学术背景
本研究属于过程控制与智能算法交叉领域,聚焦于迭代学习控制(Iterative Learning Control, ILC)在批次过程中的应用挑战。传统ILC依赖于过程的完全重复性假设,但实际工业中,批次过程常存在模型失配(model mismatch)非重复性动态(non-repetitive nature)(如时变参数、批次间扰动),导致控制性能下降。现有方法(如高阶内模ILC或鲁棒ILC)需依赖先验知识或线性模型假设,难以应对复杂非线性与非重复性耦合的系统。

研究目标是通过结合二维系统理论(2D system theory)深度强化学习(Deep Reinforcement Learning, DRL),提出一种新型控制框架(2D ILC-RL),以同时解决模型失配和非重复性问题,并保证实际系统的安全性。

三、研究流程与方法
1. 问题建模与控制器设计
- 模型构建:针对离散时间非重复性批次过程(式1),引入时间轴(t)和批次轴(k)的二维状态空间模型,包含时变参数(ΔA_t, ΔB_t)和批次依赖非线性动态(f(·))。
- 2D ILC控制器:基于鲁棒H∞理论设计反馈增益矩阵K(式30),通过线性矩阵不等式(LMI)验证稳定性与收敛性(定理1)。核心创新在于将传统ILC扩展为二维结构,利用当前批次和前一批次信息联合优化控制信号(图2)。

  1. DRL补偿器开发

    • 算法选择:采用软演员-评论家(Soft Actor-Critic, SAC)算法,因其最大熵策略可提升探索效率与鲁棒性。
    • 状态空间设计:构建二维状态向量(式31),包含当前批次和前一批次的输入、输出及参考轨迹信息。
    • 实时安全策略:提出三阶段训练方案:
      • 阶段1:在标称模型虚拟环境中预训练DRL补偿器,以平均奖励(式27)为收敛指标(图5);
      • 阶段2:在实际系统中微调补偿器(无随机探索),以均方根误差(RMSE,式28)评估性能(图6);
      • 阶段3:部署完整控制器(算法1)。
  2. 实验验证

    • 注塑成型过程:仿真显示,2D ILC-RL的跟踪误差(表2)显著低于PI间接ILC和纯2D ILC,尤其在抑制批次间正弦非重复性扰动(ζ_k=0.5sin(0.2πk))时表现突出(图8-9)。
    • 非线性连续搅拌釜反应器:在温度控制中,2D ILC-RL的RMSE均值仅为0.1(表3),优于对比方法(图13),且DRL补偿器成功学习到周期性补偿信号(图14)。

四、主要结果与逻辑链条
1. 控制性能提升
- 2D ILC控制器通过LMI保证了基础稳定性(附录A定理1-3),而DRL补偿器进一步将注塑过程的平均跟踪误差从2.02(纯2D ILC)降至0.12(表2)。
- 非线性反应器中,DRL补偿器通过自适应调整抵消了时变扰动(σ_k,t,式34),验证了其对未知动态的泛化能力。

  1. 安全性保障

    • 三阶段训练策略将实际系统中的最大RMSE限制在8.446(注塑)和5.424(反应器)(表1),避免了DRL探索阶段的不安全控制。
  2. 理论贡献

    • 提出基于2D理论的收敛性证明框架(式46-47),并扩展SAC算法为目标策略结构(式21),提升训练稳定性。

五、结论与价值
1. 科学价值
- 首次将2D系统理论与DRL结合,为非线性非重复性批次过程提供了通用控制框架。
- 理论层面,解决了传统ILC依赖重复性和线性模型的局限性。

  1. 应用价值
    • 可应用于注塑、制药结晶等工业场景,提升复杂批次过程的控制精度与鲁棒性。
    • 提出的安全训练方案为DRL在工业控制中的落地提供了实践参考。

六、研究亮点
1. 方法创新
- 二维ILC与DRL的协同架构,兼具模型驱动与数据驱动优势。
- 改进的SAC算法(目标策略结构)提升了补偿器的收敛速度。

  1. 实验设计
    • 多场景验证(线性和非线性系统)凸显方法的普适性。
    • 公开代码(附录C)促进学术复现与工业应用。

七、其他价值
- 附录B提供的SAC伪代码(算法2)为相关研究提供了标准化实现参考。
- 对时变/批次变参数的显式建模(式1-3)为后续研究提供了理论扩展基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com