基于APF-TD3集成强化学习框架的自动化港口AGV路径规划与优化研究
本文由Xinqiang Chen(上海海事大学物流科学与工程研究院)、Shuhao Liu(上海海事大学商船学院)、Jiansen Zhao(上海海事大学商船学院)、Huafeng Wu(上海海事大学商船学院,通讯作者)、Jiangfeng Xian(上海海事大学物流科学与工程研究院)以及Jakub Montewka(格丁尼亚海事大学海事运输风险与安全研究组)共同完成,发表于2024年3月的《Ocean and Coastal Management》期刊第251卷。
研究背景
随着全球航运贸易的快速发展,自动化集装箱码头正向智能化、安全化和高效化方向发展。自动导引车(Automated Guided Vehicle, AGV)作为港口物流系统的核心设备,其运输路径规划直接影响港口运营效率。现有研究主要关注港口设备间协同操作和环境感知下的路径优化,但对路径平滑性和安全性的研究相对不足。传统的固定路径规划(如基于磁钉导航)虽然能全局优化资源,但建设成本高且难以适应动态需求;而基于GPS、激光雷达等传感器的自主路径规划虽有灵活性,但存在数据传输延迟、路径安全性不确定等问题。
本研究旨在通过结合人工势场(Artificial Potential Field, APF)算法和双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法,构建APF-TD3集成框架,解决港口环境下单AGV路径规划中的平滑性和安全性优化问题,为智能港口建设提供基础技术支持。
研究方法与流程
研究采用四阶段工作流程:
- AGV调度任务制定:
- 通过枚举法确定单AGV的调度计划
- 输入参数包括:岸桥数量(x₁)、堆场数量(x₂)、集装箱存储点数量(x₃)、AGV数量(x₄=1)、待运输集装箱数量(x₅)
- 计算从起始点到各集装箱存储点的路径长度,选择最短路径优先执行
- AGV状态信息确定:
- 采用APF算法构建势场环境:
- 吸引势场函数:Uₐₜₜ(q)=½kₐₜₜρ²(q,qg),吸引力fatt=kₐₜₜρ(q,qg)
- 排斥势场函数:Uᵣₑₚ(q)=½kᵣₑₚ(1/ρ(q,q₀)-1/ρ₀)²(当ρ≤ρ₀)
- 总势场为吸引势场与排斥势场的叠加,AGV位置、障碍物排斥场和目标点吸引场作为TD3算法的输入状态
- 最优路径决策:
- 基于马尔可夫决策过程(Markov Decision Process, MDP)框架构建状态集S、行为集A、状态转移概率P和奖励函数R
- 采用Actor-Critic架构:
- Actor网络(策略函数)负责在连续动作空间选择动作
- Critic网络(价值函数)评估动作价值,使用双Q网络结构减少过高估计
- TD3算法关键改进:
- 延迟更新(每D次Critic更新后才更新Actor网络)
- 目标策略噪声(添加高斯噪声N(μ,σ)增强探索)
- 软更新参数θ′=τθ+(1-τ)θ′
- 运输路径生成:
- 奖励函数设计:
- 路径长度惩罚(-5×路径长度)
- 时间惩罚(-消耗时间值)
- 碰撞惩罚(固定值-10)
- 距离奖励(1/距离)
- 评估指标:
- 全局安全度(Global Safety, GS):路径平均转向角
- 局部平滑度(Local Smoothness, LS):相邻转向角变化最大值
实验结果
研究设置了小规模(2岸桥/10堆场)、中规模(3岸桥/30堆场)和大规模(4岸桥/50堆场)三种港口场景进行验证:
- 小规模场景:
- APF-TD3获得最短路径(27.519m),相比APF-DDPG(28.353m)、APF(29.393m)和RRT(33.628m)分别优化0.834m、1.874m和6.109m
- 路径平滑性(GS=1.055°)优于对比算法(APF-DDPG:1.068°; RRT:11.680°)
- 计算时间仅0.19秒,效率显著优于RRT(31.709秒)
- 中规模场景(8条运输路径):
- 总路径长度270.847m,比APF-DDPG缩短20.228m
- 典型路径b-e对比:APF-TD3路径长度24.065m,转向角0.278°,显著优于APF-DDPG(24.202m/0.770°)
- CPU/GPU平均占用率仅1.575%,计算效率优势明显
- 大规模场景(13条运输路径):
- 总路径长度496.389m,比APF-DDPG优化4.672m
- 复杂路径g-b中,APF-TD3的LS值为8.587°,远低于APF-DDPG(11.002°)和RRT(38.931°)
- 在环境复杂度不同的路径中均保持稳定性能
研究结论与价值
本研究的主要贡献包括: 1. 首次将APF与TD3算法集成应用于港口AGV路径规划,在小、中、大规模场景中均实现了最短路径(分别为27.519m、270.847m、496.389m)和最优平滑性 2. 提出的框架能适应不同港口环境布局变化,通过奖励机制设计可扩展建立AGV速度、能耗、碳排放与安全的关系 3. 为非固定路线下的AGV路径研究提供理论基础,为自动化集装箱港口的环境感知与协同管理研究提供技术支持
科学价值体现在: - 理论层面:发展了基于深度强化学习的连续动作空间路径规划方法,解决了传统算法(如Dijkstra、A*)对环境变化不敏感的问题 - 应用层面:提高了AGV运输效率(路径缩短7.3%-12.2%),增强路径安全性(转向角降低52%-91%),为智能港口建设提供关键技术
研究亮点
- 方法创新:首创APF-TD3集成框架,通过双Q网络结构和目标策略噪声解决强化学习中的过高估计问题
- 评估体系完善:提出全局安全度(GS)和局部平滑度(LS)量化指标,超越传统仅关注路径长度的评价方式
- 工程适用性:在三种不同规模港口场景验证中均表现优异,尤其在大规模复杂环境下仍保持计算效率(平均响应时间秒)
未来研究方向包括:多AGV协同路径规划、结合激光雷达/视觉传感器的动态障碍物识别,以及在真实港口环境中的部署验证。该成果特别适用于中国上海港、青岛港等采用垂直布局和平行布局的自动化集装箱码头。