分享自:

基于多智能体深度强化学习的自动化集装箱码头多AGV调度方法

期刊:IEEEDOI:3564979-8-3503-6860-4/24/$31.00

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


作者及机构

本研究由Fei Wang, Pansheng Ding, Yannan Bi, Jianbin Qiu(哈尔滨工业大学智能控制与系统研究所)团队完成,发表于2024年IEEE会议(DOI: 10.1109/CAC63892.2024.10865584)。研究得到中国国家自然科学基金(U21B6001, 62273121)支持。


学术背景

研究领域:自动化集装箱码头(Automated Container Terminal, ACT)的智能调度,属于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)在工业物流中的应用。

研究动机
1. 现实需求:随着海运业发展,集装箱码头调度需高效处理多设备(如AGV自动导引车、岸桥、场桥)协同问题,传统启发式算法(如遗传算法)和单智能体强化学习(如DQN)存在收敛慢、动态适应性差、稀疏奖励(Sparse Reward)等问题。
2. 技术瓶颈:现有MADRL方法(如CMADRL、CNP协议)需大量训练数据或忽略实时环境信息,难以平衡探索(Exploration)与利用(Exploitation)。

研究目标:提出耦合深度Q网络(Coupling Deep Q-Network, C-DQN)算法,解决AGV调度中的稀疏奖励、多智能体冲突、任务决策强相关性等问题,提升整体效率。


研究流程与方法

1. 问题建模与仿真环境构建

  • 仿真工具:基于Python库SimPy构建自动化码头仿真模型,包含AGV模块、场桥模块、岸桥模块等,模块间通过事件驱动并行运行(图2-3)。
  • 场景设计:3台AGV、3台岸桥、3台场桥协同完成30个集装箱任务,任务属性包括吨位等级、装卸类型等。

2. C-DQN算法设计

核心创新点
- 掩码处理(Mask Processing)
- 问题:传统DQN输出维度固定,可能导致AGV重复选择已完成任务,加剧稀疏奖励。
- 方法:通过二进制掩码屏蔽已完成任务(状态标记为0),将对应Q值替换为极小值,强制模型选择有效动作(图5)。
- 固定步长贪婪率调整
- 问题:传统ε-greedy策略在训练后期波动大,影响收敛。
- 方法:初始ε=0.9,训练30,000次后每2,000次增加0.01,直至ε=0.99;后续每1,000次增加0.001,逐步稳定探索(Algorithm 1)。
- 集中训练分散执行(CTDE)
- 问题:多AGV独立学习易引发资源冲突。
- 方法:经验回放缓冲区(Experience Replay Buffer)存储全局状态样本(式3),目标Q值计算采用多智能体Q值平均(式4),强化智能体间耦合。

3. 马尔可夫决策过程(MDP)建模

  • 状态空间(State Space):集装箱任务状态、AGV位置、岸桥/场桥状态、吨位等级(式5)。
  • 动作空间(Action Space):N+1维向量(N个任务+1个等待动作),掩码处理后选择最高Q值动作。
  • 奖励函数(Reward Function)
    • 基础奖励(式6):鼓励AGV减少等待时间(twaiting),选择等待动作则惩罚(r0=-1.5)。
    • 吨位规则奖励(式7):符合集装箱堆叠规则(图6)额外奖励+3,否则惩罚-1。

4. 实验验证

  • 对比算法:传统DQN(掩码处理相同,但独立学习、固定ε=0.9)。
  • 评估指标:奖励函数收敛值、AGV总等待时间、任务完成时间。
  • 结果
    • C-DQN:奖励收敛至647.53(图7),AGV总等待时间4.71秒(不含初始等待),任务耗时1939.87秒(图8)。
    • DQN:奖励峰值594.42(图9),AGV总等待858.75秒,任务耗时2055.59秒(图10)。

主要结果与结论

  1. 性能提升:C-DQN将AGV非必要等待时间降低77.6%,验证了其在多AGV冲突消解和全局优化上的优势。
  2. 算法创新
    • 掩码处理解决了稀疏奖励问题,避免无效探索。
    • CTDE框架通过共享状态信息减少智能体竞争,提升协作效率。
  3. 应用价值:为自动化码头动态调度提供了可扩展的MADRL解决方案,尤其适用于高实时性要求的复杂物流场景。

研究亮点

  1. 方法创新:首次将掩码机制与CTDE结合应用于AGV调度,显著提升训练效率。
  2. 工程适配性:仿真模型高度还原真实码头布局(图1),算法可直接部署至实际系统。
  3. 理论贡献:通过固定步长调整ε,为MADRL的探索-利用平衡提供了新思路。

其他价值

  • 开源潜力:基于Python的仿真模型代码可复用于其他物流调度研究。
  • 扩展性:算法框架可适配更多设备(如跨运车、无人机)的协同调度。

(全文约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com