本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
本研究由Fei Wang, Pansheng Ding, Yannan Bi, Jianbin Qiu(哈尔滨工业大学智能控制与系统研究所)团队完成,发表于2024年IEEE会议(DOI: 10.1109/CAC63892.2024.10865584)。研究得到中国国家自然科学基金(U21B6001, 62273121)支持。
研究领域:自动化集装箱码头(Automated Container Terminal, ACT)的智能调度,属于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)在工业物流中的应用。
研究动机:
1. 现实需求:随着海运业发展,集装箱码头调度需高效处理多设备(如AGV自动导引车、岸桥、场桥)协同问题,传统启发式算法(如遗传算法)和单智能体强化学习(如DQN)存在收敛慢、动态适应性差、稀疏奖励(Sparse Reward)等问题。
2. 技术瓶颈:现有MADRL方法(如CMADRL、CNP协议)需大量训练数据或忽略实时环境信息,难以平衡探索(Exploration)与利用(Exploitation)。
研究目标:提出耦合深度Q网络(Coupling Deep Q-Network, C-DQN)算法,解决AGV调度中的稀疏奖励、多智能体冲突、任务决策强相关性等问题,提升整体效率。
SimPy构建自动化码头仿真模型,包含AGV模块、场桥模块、岸桥模块等,模块间通过事件驱动并行运行(图2-3)。核心创新点:
- 掩码处理(Mask Processing):
- 问题:传统DQN输出维度固定,可能导致AGV重复选择已完成任务,加剧稀疏奖励。
- 方法:通过二进制掩码屏蔽已完成任务(状态标记为0),将对应Q值替换为极小值,强制模型选择有效动作(图5)。
- 固定步长贪婪率调整:
- 问题:传统ε-greedy策略在训练后期波动大,影响收敛。
- 方法:初始ε=0.9,训练30,000次后每2,000次增加0.01,直至ε=0.99;后续每1,000次增加0.001,逐步稳定探索(Algorithm 1)。
- 集中训练分散执行(CTDE):
- 问题:多AGV独立学习易引发资源冲突。
- 方法:经验回放缓冲区(Experience Replay Buffer)存储全局状态样本(式3),目标Q值计算采用多智能体Q值平均(式4),强化智能体间耦合。
twaiting),选择等待动作则惩罚(r0=-1.5)。(全文约1,800字)