分享自:

多任务深度强化学习在大规模土方运输动态调度中的应用

期刊:Automation in ConstructionDOI:10.1016/j.autcon.2025.106123

大型土方工程运输动态调度的多任务深度强化学习研究

作者及机构
本研究由天津大学水利工程智能建造与运维国家重点实验室的Yunuo Zhang、Jun Zhang*、Xiaoling Wang*和Tuocheng Zeng共同完成,发表于2025年3月的期刊《Automation in Construction》(Volume 174, 106123)。


学术背景

研究领域
研究聚焦于土木工程智能调度(Construction Transportation Scheduling),结合深度强化学习(Deep Reinforcement Learning, DRL)离散事件仿真(Discrete-Event Simulation, DES),解决大规模土方运输中的动态调度问题。

研究动机
大型基础设施项目(如高土石坝)的土方运输面临以下挑战:
1. 动态性与不确定性:机械故障、天气变化、需求波动导致运输效率不稳定。
2. 复杂交互:密集车队在有限空间内易引发排队拥堵,传统方法无法全局优化。
3. 实时响应需求:现有数学模型(如线性规划、遗传算法)计算成本高,泛化能力差。

研究目标
提出一个多任务深度强化学习框架,通过多智能体协同决策,动态分配材料类型、供应场地和运输路线,实现运输时间最小化。


研究流程与方法

1. 参数化离散事件仿真(DES)建模

  • 实体定义:卡车、供应场地、装载机、卸载区、道路和交叉路口等。
  • 行为逻辑:模拟装载排队、交通网络动态速度、卸载流程等,通过Python库Salabim实现。
  • 创新点:引入队列时间记录器,动态追踪各环节排队延迟。

2. 多智能体深度强化学习框架

  • 智能体分工
    • 材料分配智能体(MAA):决策运输材料类型,状态空间包括需求量、路线距离、排队时间等。
    • 供应场地分配智能体(SAA):选择供应场地和路线,状态空间含路线距离、装载机效率等。
  • 网络架构
    • LSTM网络:整合历史状态与决策序列,通过门控机制(遗忘门、输入门、输出门)捕捉长期依赖。
    • 策略更新:采用异步优势演员-评论家(A3C)算法,结合POPART(Preserving Outputs Precisely while Adaptively Rescaling Targets)实现多任务奖励归一化,解决任务间奖励尺度差异问题。

3. 实验验证

  • 案例背景:中国雅砻江某高土石坝项目,日均运输量超2万立方米,涉及5个供应场地、7种材料、260辆卡车。
  • 对比基准:遗传算法(GA)、手动调度、DDPG、PPO等。
  • 性能指标:运输总时长、计算效率、泛化能力。

主要结果

  1. 仿真准确性:DES模型与实际运输记录的误差控制在28.3分钟内,准确率超93%(图14-15)。
  2. 调度性能
    • 运输时间优化:相比传统方法减少24.1%,最优任务中缩短35.5%。
    • 计算效率:RL模型可在7分钟内生成调度方案,GA需417.9分钟(表5)。
  3. 动态适应性
    • 在装载机数量翻倍或道路封闭(如401#路段)的扰动下,POPART-A3C仍能保持均衡调度(图11,13)。
    • 多任务训练使智能体适应不同材料需求和机械配置(表6-7)。

结论与价值

科学价值
1. 方法论创新:首次将多任务DRL与参数化DES结合,解决了土方运输中动态调度的全局优化问题。
2. 技术贡献
- LSTM网络捕捉系统长期状态变化,优于传统列表枚举法。
- POPART-A3C显著提升多任务泛化能力,减少奖励干扰。

应用价值
1. 工程实践:模型已成功应用于实际项目,支持实时精益物流控制。
2. 扩展潜力:框架可推广至其他复杂施工场景(如隧道工程、供应链管理)。


研究亮点

  1. 多智能体协同:MAA与SAA的分工设计实现资源全局优化。
  2. 动态平衡机制:POPART解决多任务奖励差异,避免智能体资源倾斜。
  3. 高效建模:参数化DES显著降低复杂场景的重复建模成本。

其他价值
- 开放源码实现(Python/PyTorch)为后续研究提供基准。
- 集成实时传感器数据(GPS、视频监控)进一步提升仿真精度。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com