基于深度强化学习的多AGV实时无冲突路径规划

分享自：
基于深度强化学习的多AGV实时无冲突路径规划

交通与运载工程
工程学
人工智能
信息科学
计算机科学
期刊:IEEE 13th Data Driven Control and Learning Systems Conference
【点击此处】阅读全文、收藏及针对性提问
基于深度强化学习的多AGV实时无冲突路径规划研究学术报告作者及发表信息本研究由Guodong Yang和Renxin Zhong（通讯作者）完成，两人均来自Sun Yat-sen University的Guangdong Provincial Key Laboratory of Intelligent Transportation System。论文发表于2024 IEEE 13th Data Driven Control and Learning Systems Conference (DDCLS’24)，会议时间为2024年5月17日至19日，地点为中国开封。
学术背景研究领域与背景
 自动化集装箱码头（Automated Container Terminals, ACTs）是国际贸易的核心枢纽，其效率高度依赖自动化导引车（Automated Guided Vehicles, AGVs）的运输性能。AGV负责在码头岸桥（Quay Cranes, QCs）与堆场起重机（Yard Cranes, YCs）之间运输集装箱，其路径规划的实时性与无冲突性直接影响码头吞吐量和安全性。然而，实际运营中存在多重不确定性（如QC人工操作、潮汐因素、设备可靠性等），导致AGV出发时间无法预先确定，传统静态路径规划方法（如Dijkstra算法、时间窗口法）难以满足实时需求。
研究目标
 本研究提出一种结合无效动作屏蔽（Invalid Action Masking）和人工势场（Artificial Potential Field）的深度强化学习（Deep Reinforcement Learning, DRL）方法，旨在实现以下目标：
 1. 解决QC处理时间不确定导致的AGV动态路径规划问题；
 2. 通过无效动作屏蔽技术确保AGV绝对无冲突；
 3. 利用人工势场改进奖励函数设计，缓解DRL算法因稀疏奖励导致的收敛缓慢问题。
研究流程与方法1. 问题建模与马尔可夫决策过程（MDP）研究将多AGV路径规划问题建模为MDP五元组（状态、动作、奖励、状态转移概率、折扣因子）：
 - 状态空间：包含路网信息（节点矩阵、起点/终点矩阵、AGV位置矩阵）和AGV自身状态（坐标、速度、方向、目标距离）；
 - 动作空间：分为转向动作（上、下、左、右）和加速度动作（离散化取值）；
 - 无效动作屏蔽：通过三层过滤（速度限制、交通规则、冲突检测）屏蔽无效动作，将冲突动作的Q值设为负无穷（式2），确保算法仅选择安全动作（图5）；
 - 奖励函数：结合人工势场设计（式3），包括距离目标点的引力（rd）、AGV间斥力（rg）和任务完成奖励（rt），权重参数（w1, w2, w3）平衡各因素贡献。
2. 深度强化学习算法设计采用D3QN（Dueling Double Deep Q-Network）框架，融合以下技术：
 - Double DQN：分离动作选择与评估（式6），缓解Q值高估问题；
 - Dueling DQN：将Q值分解为状态价值函数（V）和优势函数（A）（式7），提升泛化能力；
 - 优先经验回放（PER）：根据贝尔曼误差（式8）优先采样高误差样本，加速收敛；
 - 探索策略：采用ε-greedy策略，单个AGV独立探索以避免群体探索失衡。
神经网络架构（图6）包含双输入分支（路网信息与AGV状态），通过卷积层和全连接层提取特征，最终输出Q值。
3. 仿真实验与验证实验设置：
 - 开发多AGV路径规划模拟器，支持动态调整交通规则、AGV数量和任务时间；
 - AGV起点随机生成于YC区域，终点随机生成于QC区域，最大速度3 m/s；
 - 训练超参数：200回合（episodes）、批量大小64、折扣因子0.98、初始探索率0.99（衰减率0.9）。
对比算法：无效动作惩罚法（冲突时惩罚值-50）。
主要结果训练收敛性（图7）：
无效动作屏蔽法在30回合后稳定收敛，奖励值波动显著低于惩罚法；
 
惩罚法因冲突导致的奖励波动持续存在，后期仍无法完全避免冲突（图8）。
 
冲突统计：
惩罚法在训练后期仍存在冲突（图8），而屏蔽法实现零冲突；
 
神经网络单次决策耗时0.03秒，满足实时性需求。
 
算法效率：
人工势场奖励设计有效缓解稀疏奖励问题，加速训练迭代；
 
D3QN框架结合PER显著提升样本利用率。
 
结论与价值科学价值：
 1. 首次将无效动作屏蔽技术引入AGV路径规划，确保绝对安全性；
 2. 提出基于人工势场的奖励塑形策略，为稀疏奖励环境下的DRL应用提供新思路；
 3. 构建的模拟器支持多场景测试，增强算法鲁棒性。
应用价值：
 1. 可部署于实际ACTs，应对QC处理时间不确定的动态环境；
 2. 方法通用性强，可扩展至其他多智能体路径规划场景（如无人仓库、物流中心）。
研究亮点创新方法：无效动作屏蔽与人工势场结合的DRL框架；
 
安全性保障：通过动作屏蔽实现理论零冲突，优于传统惩罚法；
 
工程实用性：模拟器支持灵活参数调整，算法决策效率满足实时需求。
 
其他价值研究开源了模拟器代码，为后续研究提供基准测试平台。参考文献中对比了多种传统路径规划方法（如Dijkstra、A*算法），凸显了DRL在动态环境中的优势。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问