本文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
连续生产流水线深度强化学习优化调度算法的研究
第一作者及机构
朱广贺(新疆师范大学计算机科学技术学院)、朱智强(新疆大学软件工程学院)、袁逸萍(新疆大学机械工程学院)
发表期刊及时间
《吉林大学学报(工学版)》(Journal of Jilin University (Engineering and Technology Edition))第54卷第7期,2024年7月
研究背景与目标
该研究聚焦于工业制造领域的连续生产流水线调度优化问题(continuous production line scheduling optimization)。随着制造业从集中式生产向分布式连续流水线转型,传统调度方法因数据复杂度高、计算量大,难以满足高效生产需求。现有方法(如混沌优化算法、遗传-差分混合算法)未解决数据降维问题,导致调度效果不佳。本研究旨在提出一种结合深度强化学习(deep reinforcement learning, DRL)与迭代贪婪算法(iterative greedy algorithm)的新型调度方法,以降低数据复杂度、优化工序延时,并提升生产线效率。
研究方法与流程
研究分为三个核心步骤:
1. 数据复杂度降低
- 方法:采用蒙特卡罗模拟(Monte Carlo simulation)与贝叶斯估计(Bayesian estimation)联合降维。
- 蒙特卡罗方法通过随机抽样(式1)计算流水线操作概率密度函数 ( f(x) ) 和后验概率 ( p(x) )。
- 贝叶斯估计通过递归模式(式3-6)优化非均匀分布样本的权重 ( w_i^k ),最终生成简化后的数据集。
- 创新点:提出序贯重要性抽样策略,解决高维数据下后验概率密度 ( p(x_{0:k}|z_k^1) ) 的计算难题。
2. 流水线参数优化
- 模型构建:基于双PNN(product-based neural networks)结构的循环神经网络(RNN),对加工时间 ( p_{ij} ) 和序列向量 ( p_i ) 编码。
- 第一层RNN(式7)映射隐藏层输出 ( h_i^1 ),生成工单工序的固定维数向量 ( p_i )。
- 第二层RNN(式8)结合调度策略 ( s ),以最短延时为目标函数 ( J(h_1’) )(式9),通过梯度下降(式10)优化参数。
- 算法创新:引入深度强化学习动态调整权重,避免局部最优。
3. 调度模型求解
- 多目标优化:结合迭代贪婪算法与DRL,全局搜索最优解。
- 将工序分为已分配(工件 ( i ))和未分配(工件 ( j ))两类,分别计算总延时代价 ( c_{\min} )(式11)。
- 通过正则化处理超参数,利用蒙特卡罗预测输出最终调度方案(式12-14)。
主要结果
- 综合评价指标
- 在低、中、高三种WIP(在制品水平)下,本文算法的综合评价结果均优于对比算法(文献[4][5]),最高达0.9984(表3)。
- 工序延时与收敛性
- 工序延时优化至5分钟以下,收敛速度显著提升(50次迭代内完成,图1)。
- 计算效率
结论与价值
- 科学价值
- 提出了一种融合蒙特卡罗、贝叶斯估计与深度强化学习的混合算法框架,为复杂工业调度问题提供了新思路。
- 应用价值
- 实际测试表明,该方法可显著提升芯片制造流水线的效率,降低生产成本,适用于多设备、高WIP的复杂场景。
- 局限性
- 当前研究未考虑工件成本本身的优化,未来可扩展多目标决策维度。
研究亮点
- 方法创新
- 首次将蒙特卡罗-贝叶斯降维与DRL结合,解决了连续生产线调度的数据复杂性问题。
- 算法融合
- 迭代贪婪算法弥补了DRL在多目标优化中的局部拟合缺陷。
- 工程适用性
- 在800台设备、80,000 WIP的实测环境中验证了算法的鲁棒性。
其他有价值内容
- 试验配置:采用Intel Xeon 64处理器与Python环境(表1),算法参数设置详见表2。
- 对比实验:与铸造生产线两阶段协同调度算法(文献[4])、混合流水线分批调度算法(文献[5])对比,本文算法全面胜出。
该研究为工业智能调度领域提供了兼具理论创新与实践价值的解决方案,后续可进一步探索成本优化与动态实时调度的结合。