李兴洲、李艳武、谢辉(重庆三峡学院电子与信息工程学院)于2024年在《computer engineering and applications计算机工程与应用》第60卷第17期发表了一项关于柔性作业车间调度问题(flexible job-shop scheduling problem, FJSP)的原创研究。该研究针对传统深度强化学习(deep reinforcement learning, DRL)算法在解决FJSP时状态与动作表示复杂、求解质量不高的问题,提出了一种基于卷积神经网络(convolutional neural network, CNN)和近端策略优化(proximal policy optimization, PPO)的深度强化学习算法,并通过双通道状态表示与机器选择算法的创新设计显著提升了调度效率。
学术背景
FJSP是制造业中复杂的NP-hard问题,其核心挑战在于工序可多机选择且加工时间动态变化。传统元启发式算法(如遗传算法、禁忌搜索等)需反复调整参数,而现有DRL方法存在状态表示复杂、训练效率低等缺陷。本研究旨在通过改进状态与动作的表示方法,以最大完工时间(makespan)最短为优化目标,构建更高效的DRL框架。
研究流程
问题建模
- 数学模型:定义了工件集、机器集及工序约束(如工序顺序约束、机器独占性约束),并建立最大完工时间最小化的目标函数(公式5-6)。
- 算法模型:将调度过程转化为马尔科夫决策过程(MDP),设计双通道状态矩阵:
- 通道1:记录工序选择的机器编号;
- 通道2:存储工序在机器上的加工次序。
矩阵维度为工件数×(最大工序数+1),未调度工序标记为-1,错误状态标记为-2。
算法设计
- 状态表示:通过CNN提取双通道矩阵特征,解决传统三通道方法在柔性环境中的不适应性。
- 动作设置:
- 工件选择:由神经网络输出概率,采用ε-贪婪策略(ε初始值0.4)选择工件;
- 机器选择:设计专用算法(算法1),根据当前机器负载动态分配最优机器。
- 奖励函数:以最大完工时间差为核心奖励(公式9),叠加错误动作惩罚(公式10-11)。
- 网络训练:采用PPO算法更新参数,行动者网络误差为时序差分误差(公式7),评论家网络误差为均方误差(公式8)。
实验验证
- 参数优化:通过对比实验确定超参数(表4),如行动者学习率(1e-5)、评论家学习率(0.001)。
- 对比实验:
- 内部对比:算法B(含机器选择算法)较算法A(双神经网络)调度评分提升7.4%;
- 外部对比:在Brandimarte算例中,本文算法平均调度评分0.82,优于DQL(0.77)、遗传算法(0.72)等(表5-6);
- 算例规模适应性:在MK-01(小规模)至MK-10(大规模)中均表现稳定,相对优势值最高达1.4(图4)。
主要结果
- 机器选择算法的有效性:算法B在MK-07算例中最大完工时间152,显著优于算法A的196(表5)。
- 状态表示创新:双通道设计使MK-03算例达到理论下限解(调度评分1.0)。
- 训练稳定性:PPO截断区间(ε=0.2)避免了梯度爆炸,奖励曲线收敛平稳(图3d)。
结论与价值
- 科学价值:提出首个结合CNN与机器选择算法的DRL框架,为FJSP提供了可扩展的状态表示范式。
- 应用价值:无需人工调参即可适应不同生产规模,在20×15大规模算例中较传统算法节省18%完工时间。
- 方法论创新:双通道状态表示与机器选择算法的解耦设计,降低了动作空间复杂度。
研究亮点
- 双通道状态表示:首次将工序机器选择与加工次序分离,增强CNN特征提取能力。
- 混合动作策略:神经网络仅处理工件选择,机器分配由确定性算法完成,减少错误动作概率。
- 工业适配性:在分时电价、多目标绿色调度等扩展场景中具潜在应用价值(引用[6])。
其他发现
实验揭示DRL算法在中小规模算例中优势显著(如MK-02相对优势0.83),但超参数敏感性仍需关注(图3a-c)。未来可结合图神经网络(如文献[9])进一步优化状态特征提取。