这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究由Wen Song、Xinyang Chen、Qiqiang Li和Zhiguang Cao共同完成,主要研究机构为新加坡管理大学(Singapore Management University)。该研究于2023年发表在《IEEE Transactions on Industrial Informatics》期刊上。
研究的主要科学领域是制造业中的调度问题,特别是柔性作业车间调度问题(Flexible Job-Shop Scheduling Problem, FJSP)。随着工业4.0和云制造(Cloud Manufacturing)的兴起,制造业系统需要更灵活、高效和动态的资源调度方法。FJSP是传统作业车间调度问题(Job-Shop Scheduling Problem, JSP)的扩展,允许每个工序在多台机器中选择一台进行加工,因此更具灵活性和复杂性。然而,现有的调度方法在处理这种灵活性时面临挑战,尤其是在决策和状态表示方面。
深度强化学习(Deep Reinforcement Learning, DRL)已被应用于学习优先级调度规则(Priority Dispatching Rules, PDRs),以解决复杂的调度问题。然而,现有研究大多集中在非柔性问题上,如JSP,而FJSP的复杂性使得现有的DRL方法难以直接应用。因此,本研究旨在提出一种新颖的DRL方法,通过学习高质量的PDRs来解决FJSP,并设计一种能够有效捕捉工序和机器之间复杂关系的状态表示方法。
研究流程主要包括以下几个步骤:
问题建模
研究首先将FJSP建模为一个马尔可夫决策过程(Markov Decision Process, MDP)。在每个决策步骤中,系统状态由所有工序和机器的当前状态组成,动作为选择一个可执行的工序-机器对,并将该工序分配到该机器上。奖励定义为部分调度方案的完工时间(makespan)的变化。
状态表示
研究提出了一种异构图(Heterogeneous Graph)结构来表示调度状态。该图由工序节点、机器节点、连接工序的有向边(表示工序的先后顺序)以及连接工序和机器的无向边(表示工序可以在该机器上加工)组成。这种表示方法显著降低了图的密度,并提供了丰富的机器信息。
神经网络架构
研究设计了一种异构图神经网络(Heterogeneous Graph Neural Network, HGNN)来提取图中的特征嵌入。HGNN采用两阶段嵌入过程:首先更新机器节点的嵌入,然后更新工序节点的嵌入。最终,通过均值池化(Mean Pooling)将工序和机器的嵌入合并为整个图的嵌入。
决策网络
基于HGNN提取的特征嵌入,研究设计了一个策略网络(Policy Network)来生成动作的概率分布。策略网络采用近端策略优化(Proximal Policy Optimization, PPO)算法进行训练,目标是最大化累积奖励。
训练与测试
研究在合成实例和公开基准上进行了广泛的实验。训练过程使用了PPO算法,并在每个训练迭代中并行解决一批FJSP实例。测试时,研究采用贪婪策略和采样策略来评估训练好的策略的性能。
训练性能
研究在四种不同规模的FJSP实例上进行了训练,训练过程稳定且收敛。训练曲线显示,DRL代理能够从零开始学习高质量的调度策略。
测试性能
在训练规模的实例上,研究提出的方法在平均完工时间上显著优于传统的手工PDRs(如FIFO、MOR、SPT和MWKR)。特别是在采样策略下,方法的性能进一步提升,与Google OR-Tools求解器的差距缩小到11%以内。
泛化性能
研究还测试了训练好的策略在更大规模实例和公开基准上的泛化能力。结果显示,训练好的策略能够有效泛化到未见过的实例,且在大多数情况下优于传统PDRs。
运行时间
研究提出的方法保持了PDR方法的高效性,运行时间随着问题规模的增加而温和增长。尽管神经网络推理的成本高于手工PDRs,但其性能提升是显著的。
本研究提出了一种新颖的端到端DRL方法,通过学习高质量的PDRs来解决FJSP。该方法通过将工序选择和机器分配结合为一个复合决策,提出了一种异构图结构来表示调度状态,并设计了一种HGNN架构来提取丰富的状态信息。实验结果表明,该方法在保持高计算效率的同时,显著优于传统的手工PDRs,并且能够有效泛化到未见过的实例和公开基准。
新颖的DRL方法
本研究首次提出了一种端到端的DRL方法来解决FJSP,填补了现有研究在这一领域的空白。
异构图表示
研究提出的异构图结构能够有效捕捉工序和机器之间的复杂关系,显著降低了图的密度,并提供了丰富的机器信息。
高效的训练与泛化
研究提出的方法在训练和测试中表现出色,能够快速解决大规模FJSP实例,并且在未见过的实例上表现出良好的泛化能力。
研究还探讨了将训练好的策略与搜索方法(如遗传算法)结合的可能性,以进一步提高调度方案的质量。此外,研究提出的方法具有实际应用价值,能够帮助生产管理人员优化生产资源的使用。
本研究为制造业中的柔性调度问题提供了一种高效、智能的解决方案,具有重要的科学价值和实际应用意义。