学术研究报告:二维迭代学习控制与深度强化学习补偿在非重复性不确定批次过程中的应用
一、作者及发表信息
本研究的作者为Jianan Liu、Zike Zhou、Wenjing Hong和Jia Shi(通讯作者),均来自厦门大学人工智能研究所、化学与生物工程系及福建省能源材料科学与技术创新实验室(IKKEM)。研究成果发表于2023年10月的《Journal of Process Control》(第131卷,103106页)。
二、学术背景
本研究属于过程控制与智能算法交叉领域,聚焦于迭代学习控制(Iterative Learning Control, ILC)在批次过程中的应用挑战。传统ILC依赖于过程的完全重复性假设,但实际工业中,批次过程常存在模型失配(model mismatch)和非重复性动态(non-repetitive nature)(如时变参数、批次间扰动),导致控制性能下降。现有方法(如高阶内模ILC或鲁棒ILC)需依赖先验知识或线性模型假设,难以应对复杂非线性与非重复性耦合的系统。
研究目标是通过结合二维系统理论(2D system theory)与深度强化学习(Deep Reinforcement Learning, DRL),提出一种新型控制框架(2D ILC-RL),以同时解决模型失配和非重复性问题,并保证实际系统的安全性。
三、研究流程与方法
1. 问题建模与控制器设计
- 模型构建:针对离散时间非重复性批次过程(式1),引入时间轴(t)和批次轴(k)的二维状态空间模型,包含时变参数(ΔA_t, ΔB_t)和批次依赖非线性动态(f(·))。
- 2D ILC控制器:基于鲁棒H∞理论设计反馈增益矩阵K(式30),通过线性矩阵不等式(LMI)验证稳定性与收敛性(定理1)。核心创新在于将传统ILC扩展为二维结构,利用当前批次和前一批次信息联合优化控制信号(图2)。
DRL补偿器开发
实验验证
四、主要结果与逻辑链条
1. 控制性能提升:
- 2D ILC控制器通过LMI保证了基础稳定性(附录A定理1-3),而DRL补偿器进一步将注塑过程的平均跟踪误差从2.02(纯2D ILC)降至0.12(表2)。
- 非线性反应器中,DRL补偿器通过自适应调整抵消了时变扰动(σ_k,t,式34),验证了其对未知动态的泛化能力。
安全性保障:
理论贡献:
五、结论与价值
1. 科学价值:
- 首次将2D系统理论与DRL结合,为非线性非重复性批次过程提供了通用控制框架。
- 理论层面,解决了传统ILC依赖重复性和线性模型的局限性。
六、研究亮点
1. 方法创新:
- 二维ILC与DRL的协同架构,兼具模型驱动与数据驱动优势。
- 改进的SAC算法(目标策略结构)提升了补偿器的收敛速度。
七、其他价值
- 附录B提供的SAC伪代码(算法2)为相关研究提供了标准化实现参考。
- 对时变/批次变参数的显式建模(式1-3)为后续研究提供了理论扩展基础。