强化学习在流程工业中的应用:综述与展望
本文由Oğuzhan Doğru、Junyao Xie、Om Prakash、Ranjith Chiplunkar、Jansen Soesanto、Hongtian Chen、Kirubakaran Velswamy、Fadi Ibrahim和Biao Huang(均为University of Alberta研究人员)合作完成,发表于2024年2月的*IEEE/CAA Journal of Automatica Sinica*。文章系统性地综述了强化学习(Reinforcement Learning, RL)在流程工业中的研究进展,涵盖算法理论、应用场景及未来挑战,旨在为研究人员和工业从业者提供全面的技术参考。
文章指出,RL与经典控制理论(如模型预测控制MPC)均以动态规划为基础,但两者存在显著差异:
- 模型依赖性:RL可通过无模型(model-free)方式学习策略,而MPC需依赖精确的系统模型。
- 目标函数灵活性:RL的奖励函数可自定义(如离散或连续形式),而MPC通常采用二次型成本函数。
- 适应性:RL能在线适应环境变化,而传统MPC多为静态策略。
支持证据:文中以工业案例(如化工过程优化)说明RL在非线性、高维系统中的优势,例如通过深度确定性策略梯度(DDPG)实现连续动作空间的控制。
文章将RL算法分为三类,并详述其改进:
- 基于值函数的方法(如Q-learning):通过时序差分(Temporal Difference, TD)更新动作价值函数,但面临高维状态空间的挑战。
- 基于策略的方法(如REINFORCE):直接优化策略参数,支持连续动作,但方差较高。
- 演员-评论家方法(如DDPG、PPO):结合两者优势,通过熵正则化(如SAC算法)提升探索效率。
技术亮点:TD3算法通过双重Q网络减少价值高估偏差,PPO通过策略裁剪(policy clipping)保证训练稳定性。
本文首次系统梳理了RL在流程工业全控制层级(从仪器层到生产层)的应用,填补了现有综述的空白。其学术价值体现在:
1. 跨学科整合:连接控制理论、深度学习与工业自动化,提出“学习-控制”联合分析框架。
2. 技术前瞻性:指出离线RL(offline RL)和鲁棒RL在工业场景的潜力。
3. 实践指导:为工业界提供了算法选型指南(如表格II对比各actor-critic算法特性)。
本文不仅是一篇技术综述,更为工业智能化转型提供了理论基石与实施路径。