本研究由Guodong Yang和Renxin Zhong(通讯作者)完成,两人均来自Sun Yat-sen University的Guangdong Provincial Key Laboratory of Intelligent Transportation System。论文发表于2024 IEEE 13th Data Driven Control and Learning Systems Conference (DDCLS’24),会议时间为2024年5月17日至19日,地点为中国开封。
研究领域与背景
自动化集装箱码头(Automated Container Terminals, ACTs)是国际贸易的核心枢纽,其效率高度依赖自动化导引车(Automated Guided Vehicles, AGVs)的运输性能。AGV负责在码头岸桥(Quay Cranes, QCs)与堆场起重机(Yard Cranes, YCs)之间运输集装箱,其路径规划的实时性与无冲突性直接影响码头吞吐量和安全性。然而,实际运营中存在多重不确定性(如QC人工操作、潮汐因素、设备可靠性等),导致AGV出发时间无法预先确定,传统静态路径规划方法(如Dijkstra算法、时间窗口法)难以满足实时需求。
研究目标
本研究提出一种结合无效动作屏蔽(Invalid Action Masking)和人工势场(Artificial Potential Field)的深度强化学习(Deep Reinforcement Learning, DRL)方法,旨在实现以下目标:
1. 解决QC处理时间不确定导致的AGV动态路径规划问题;
2. 通过无效动作屏蔽技术确保AGV绝对无冲突;
3. 利用人工势场改进奖励函数设计,缓解DRL算法因稀疏奖励导致的收敛缓慢问题。
研究将多AGV路径规划问题建模为MDP五元组(状态、动作、奖励、状态转移概率、折扣因子):
- 状态空间:包含路网信息(节点矩阵、起点/终点矩阵、AGV位置矩阵)和AGV自身状态(坐标、速度、方向、目标距离);
- 动作空间:分为转向动作(上、下、左、右)和加速度动作(离散化取值);
- 无效动作屏蔽:通过三层过滤(速度限制、交通规则、冲突检测)屏蔽无效动作,将冲突动作的Q值设为负无穷(式2),确保算法仅选择安全动作(图5);
- 奖励函数:结合人工势场设计(式3),包括距离目标点的引力(rd)、AGV间斥力(rg)和任务完成奖励(rt),权重参数(w1, w2, w3)平衡各因素贡献。
采用D3QN(Dueling Double Deep Q-Network)框架,融合以下技术:
- Double DQN:分离动作选择与评估(式6),缓解Q值高估问题;
- Dueling DQN:将Q值分解为状态价值函数(V)和优势函数(A)(式7),提升泛化能力;
- 优先经验回放(PER):根据贝尔曼误差(式8)优先采样高误差样本,加速收敛;
- 探索策略:采用ε-greedy策略,单个AGV独立探索以避免群体探索失衡。
神经网络架构(图6)包含双输入分支(路网信息与AGV状态),通过卷积层和全连接层提取特征,最终输出Q值。
实验设置:
- 开发多AGV路径规划模拟器,支持动态调整交通规则、AGV数量和任务时间;
- AGV起点随机生成于YC区域,终点随机生成于QC区域,最大速度3 m/s;
- 训练超参数:200回合(episodes)、批量大小64、折扣因子0.98、初始探索率0.99(衰减率0.9)。
对比算法:无效动作惩罚法(冲突时惩罚值-50)。
训练收敛性(图7):
冲突统计:
算法效率:
科学价值:
1. 首次将无效动作屏蔽技术引入AGV路径规划,确保绝对安全性;
2. 提出基于人工势场的奖励塑形策略,为稀疏奖励环境下的DRL应用提供新思路;
3. 构建的模拟器支持多场景测试,增强算法鲁棒性。
应用价值:
1. 可部署于实际ACTs,应对QC处理时间不确定的动态环境;
2. 方法通用性强,可扩展至其他多智能体路径规划场景(如无人仓库、物流中心)。
研究开源了模拟器代码,为后续研究提供基准测试平台。参考文献中对比了多种传统路径规划方法(如Dijkstra、A*算法),凸显了DRL在动态环境中的优势。