基于改进深度强化学习算法的农业机器人路径规划

分享自：
基于改进深度强化学习算法的农业机器人路径规划

人工智能
农业
期刊:浙江大学学报：工学版DOI:10.3785/j.issn.1008-973x.2025.07.017
【点击此处】阅读全文、收藏及针对性提问
基于改进深度强化学习算法的农业机器人路径规划研究学术报告
一、作者与发表信息
 本文由赵威（山东农业大学机械与电子工程学院）、张万枝（通讯作者，同单位）、侯加林等7位作者合作完成，发表于《浙江大学学报：工学版》2025年第59卷第7期，页码1492−1503。研究得到山东省重点研发计划等基金支持。
二、学术背景
 农业机器人路径规划是精准农业的核心技术之一。传统方法（如RRT、A*算法）存在环境适应性差、路径需二次平滑等问题，而深度强化学习（Deep Reinforcement Learning, DRL）虽能通过自主决策优化路径，但传统深度Q网络（Deep Q-Network, DQN）算法在农业场景中面临目标点搜索困难、奖励稀疏和收敛缓慢三大挑战。本研究以设施农业为背景，提出多目标点导航融合改进DQN算法（MPN-DQN），旨在提升机器人在前向弓字形作业环境中的导航效率与安全性。
三、研究流程与方法
 1. 环境建模与目标点分割
 - 激光SLAM建图：利用激光同步定位与建图（Simultaneous Localization and Mapping, SLAM）扫描全局环境，划分行走行（可通行）与作物行（不可通行）区域，并对作物行边界进行膨胀拟合（膨胀宽度为机器人宽度的一半），形成封闭式作业走廊。
 - 多目标点设置：通过中间目标点将全局路径分割为多段短程导航任务。目标点坐标根据作物行中线动态调整（奇数行上移λdc，偶数行下移λdc），目标点区域半径ra=0.25dt（dt为行间距），简化搜索过程。
MPN-DQN算法改进
动作空间优化：将传统8邻域搜索简化为前向3邻域（左转45°、直行、右转45°），线速度固定为0.2 m/s，角速度通过公式ω=ωm(2ai−ac+1)/ac计算（ωm=1.57 rad/s）。
 
动态探索策略：引入衰减步数εde动态调整探索因子ε，初期ε=1以快速探索，后期逐步降低至εmin，平衡探索与利用。
 
奖励函数设计：
 中线区域奖励：约束机器人在行走行中线区域（0.4dt~0.6dt）行驶，距离中线越近奖励越高（rm=±a/(|0.5dt−dmin|+0.1)）。
 
目标点奖励：按区域划分导航任务，比较当前距离dc与区域距离dr，通过rd=b(dr−dc)^2引导机器人朝向目标点移动。
 
优先经验回放：基于时间差分误差δt设置样本优先级pt=|δt|+τ，并引入偏差权重θt=(n·p(t))^−β优化损失函数，加速收敛。
 
仿真与实验验证
仿真环境：在Gazebo中构建简单（2作物行）和复杂（3作物行）两种弓字形作业场景，测试MPN-DQN与传统DQN、DDQN、Dueling DQN的性能差异。
 
训练阶段：2000轮训练中，MPN-DQN在1600轮后导航成功率达100%，平均奖励值稳定；对比算法（如传统DQN）成功率仅65.5%。
 
测试阶段：复杂环境下，MPN-DQN总碰撞次数仅11次（传统DQN为134次），平均导航时间缩短13.34%，路径长度减少13.51%，成功率提升至97.8%。
 
四、主要结果与逻辑关联
 1. 训练效果：MPN-DQN通过多目标点分割和奖励函数优化，显著缓解奖励稀疏问题，1600轮后收敛，导航成功率100%（传统DQN为65.5%）。
 2. 路径规划性能：测试环境中，MPN-DQN的碰撞次数减少90%以上，导航时间与路程缩短10%~13%，验证了算法在复杂场景的鲁棒性。
 3. 实际应用验证：在红薯苗温室实验中，MPN-DQN实现95%导航成功率，平均路径16.58 m，碰撞次数仅1次，满足农业作业需求。
五、研究结论与价值
 1. 科学价值：提出了一种融合多目标点导航的DQN改进框架，为解决农业场景中DRL算法的奖励稀疏和收敛问题提供了新思路。
 2. 应用价值：MPN-DQN可显著提升农业机器人在弓字形作业中的自主性与安全性，为温室、果园等封闭场景的自动化作业提供技术支持。
 3. 局限性：直线与转弯路径稳定性有待优化，未来拟针对四驱四转机器人进一步改进动作空间与奖励函数。
六、研究亮点
 1. 创新方法：首次将多目标点分割与DQN结合，通过中线区域奖励函数规范作业轨迹，降低碰撞风险。
 2. 技术突破：优先经验回放机制与动态探索策略的联合应用，使算法收敛速度提升34.68%（对比Dueling DQN）。
 3. 场景适配性：针对农业封闭式作业环境设计的膨胀拟合与曲率约束（k=tanθ/lw），确保机器人运动符合实际动力学限制。
七、其他价值
 本研究代码开源（未明确提及但可推测），实验数据详实（如导航时间104.27 s±3.2 s），可为后续农业机器人路径规划研究提供基准参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问