多智能体农业机械群协同调度策略研究

分享自：
多智能体农业机械群协同调度策略研究

期刊:Scientific ReportsDOI:https://doi.org/10.1038/s41598-025-93848-y
农业机械多智能体协同调度策略研究的学术报告
一、研究团队与发表信息
 本文由Ziyi Wang、Fan Zhang（通讯作者，邮箱：ellenzhang0911@126.com）、Shiji Ma、Hailong Wang、Shunyao Zhang及Xiaozhong Gao共同完成，研究团队来自河北农业大学信息科学与技术学院及河北省农业大数据重点实验室。论文发表于期刊*Scientific Reports*（2025年15卷，第9045页），开放获取许可为CC BY-NC-ND 4.0。
二、学术背景与研究目标
 科学领域：本研究属于农业机械化与人工智能交叉领域，聚焦于多调度中心（multiple dispatch centers）的农业机械（如收割机）路径规划问题。
 研究动因：中国农业现代化进程中，传统分散调度模式存在资源错配（如“有机户无活可干，无机户有活无机”）、调度成本高、效率低等问题。2022年农业农村部“十四五”规划提出加速农业机械智能化升级，亟需解决多中心协同调度难题。
 研究目标：开发一种基于深度强化学习（Deep Reinforcement Learning, DRL）的算法（MCMPP-DRL），以最小化多调度中心场景下的总调度成本。
三、研究流程与方法
 1. 问题建模
 - 研究对象：河北玉米种植区的3个调度中心，分别针对20、40、50、100、120块农田进行实验。
 - 数学模型：将问题抽象为多调度中心多收割机路径规划问题（MDVRP），目标函数为最小化总调度成本（式1），约束包括收割机性能统一、有效工时限制等（式2-4）。
算法设计（MCMPP-DRL）
环境构建：基于马尔可夫决策过程（MDP）设计状态空间（收割机位置、剩余工时）、动作空间（可调度节点选择）及奖励函数（负转移距离）。
 
网络架构：
 编码器：嵌入调度节点集，通过多头注意力机制（Multi-Head Attention, MHA）提取特征。
 
解码器：结合图节点特征与当前状态，通过单头注意力（SHA）生成调度概率分布。
 
训练优化：采用带基准回滚的策略梯度算法（REINFORCE with rollback benchmark），通过蒙特卡洛方法评估累积回报，使用Adam优化器更新参数。
 
局部搜索：引入2-opt策略消除路径交叉，进一步缩短距离。
对比实验
对比算法：遗传算法（GA）、模拟退火（SA）、蚁群优化（ACO）。
 
评价指标：调度成本（单位：元）、路径长度（公里）。
 
四、主要结果
 1. 算法性能
 - 成本优化：MCMPP-DRL在50块农田场景下，调度成本为8916.6元，较ACO（9629.2元）、SA（10411.8元）、GA（10868.2元）分别降低9.66%、14.34%、24.41%。
 - 规模化验证：随着农田数量增加（20至120块），MCMPP-DRL始终保持最低成本（表4），平均优化幅度达30.4%（GA）、22.7%（SA）、13.3%（ACO）（表7）。
技术优势
 端到端学习：直接通过DRL生成调度策略，避免了传统启发式算法的局部最优问题。
 
动态适应性：奖励函数（式5）驱动模型快速收敛（图5），训练20万步后稳定。
 
五、结论与价值
 1. 科学价值：首次将DRL应用于农业机械多中心协同调度，提出融合注意力机制与局部搜索的混合算法框架。
 2. 应用价值：为复杂农业场景提供低成本调度方案，实验数据基于真实农机参数（如沃得4LB-150AA收割机燃油成本14元/公里），具备工程落地潜力。
六、研究亮点
 - 方法创新：MCMPP-DRL结合编码器-解码器架构与2-opt搜索，在路径规划中实现全局优化。
 - 场景特异性：针对农业机械作业特点（如有效工时约束）定制化建模，填补了该领域DRL研究的空白。
七、局限与展望
 - 当前局限：仅验证同类型收割机调度，未涉及异构农机协同；大规模场景验证不足。
 - 未来方向：扩展至异构农机调度及更大规模农田实验。
数据可用性：实验数据集可通过通讯作者合理获取。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问