分享自:

基于改进深度强化学习算法的农业机器人路径规划

期刊:浙江大学学报:工学版DOI:10.3785/j.issn.1008-973x.2025.07.017

基于改进深度强化学习算法的农业机器人路径规划研究学术报告

一、作者与发表信息
本文由赵威(山东农业大学机械与电子工程学院)、张万枝(通讯作者,同单位)、侯加林等7位作者合作完成,发表于《浙江大学学报:工学版》2025年第59卷第7期,页码1492−1503。研究得到山东省重点研发计划等基金支持。

二、学术背景
农业机器人路径规划是精准农业的核心技术之一。传统方法(如RRT、A*算法)存在环境适应性差、路径需二次平滑等问题,而深度强化学习(Deep Reinforcement Learning, DRL)虽能通过自主决策优化路径,但传统深度Q网络(Deep Q-Network, DQN)算法在农业场景中面临目标点搜索困难奖励稀疏收敛缓慢三大挑战。本研究以设施农业为背景,提出多目标点导航融合改进DQN算法(MPN-DQN),旨在提升机器人在前向弓字形作业环境中的导航效率与安全性。

三、研究流程与方法
1. 环境建模与目标点分割
- 激光SLAM建图:利用激光同步定位与建图(Simultaneous Localization and Mapping, SLAM)扫描全局环境,划分行走行(可通行)与作物行(不可通行)区域,并对作物行边界进行膨胀拟合(膨胀宽度为机器人宽度的一半),形成封闭式作业走廊。
- 多目标点设置:通过中间目标点将全局路径分割为多段短程导航任务。目标点坐标根据作物行中线动态调整(奇数行上移λdc,偶数行下移λdc),目标点区域半径ra=0.25dt(dt为行间距),简化搜索过程。

  1. MPN-DQN算法改进

    • 动作空间优化:将传统8邻域搜索简化为前向3邻域(左转45°、直行、右转45°),线速度固定为0.2 m/s,角速度通过公式ω=ωm(2ai−ac+1)/ac计算(ωm=1.57 rad/s)。
    • 动态探索策略:引入衰减步数εde动态调整探索因子ε,初期ε=1以快速探索,后期逐步降低至εmin,平衡探索与利用。
    • 奖励函数设计
      • 中线区域奖励:约束机器人在行走行中线区域(0.4dt~0.6dt)行驶,距离中线越近奖励越高(rm=±a/(|0.5dt−dmin|+0.1))。
      • 目标点奖励:按区域划分导航任务,比较当前距离dc与区域距离dr,通过rd=b(dr−dc)^2引导机器人朝向目标点移动。
    • 优先经验回放:基于时间差分误差δt设置样本优先级pt=|δt|+τ,并引入偏差权重θt=(n·p(t))^−β优化损失函数,加速收敛。
  2. 仿真与实验验证

    • 仿真环境:在Gazebo中构建简单(2作物行)和复杂(3作物行)两种弓字形作业场景,测试MPN-DQN与传统DQN、DDQN、Dueling DQN的性能差异。
    • 训练阶段:2000轮训练中,MPN-DQN在1600轮后导航成功率达100%,平均奖励值稳定;对比算法(如传统DQN)成功率仅65.5%。
    • 测试阶段:复杂环境下,MPN-DQN总碰撞次数仅11次(传统DQN为134次),平均导航时间缩短13.34%,路径长度减少13.51%,成功率提升至97.8%。

四、主要结果与逻辑关联
1. 训练效果:MPN-DQN通过多目标点分割和奖励函数优化,显著缓解奖励稀疏问题,1600轮后收敛,导航成功率100%(传统DQN为65.5%)。
2. 路径规划性能:测试环境中,MPN-DQN的碰撞次数减少90%以上,导航时间与路程缩短10%~13%,验证了算法在复杂场景的鲁棒性。
3. 实际应用验证:在红薯苗温室实验中,MPN-DQN实现95%导航成功率,平均路径16.58 m,碰撞次数仅1次,满足农业作业需求。

五、研究结论与价值
1. 科学价值:提出了一种融合多目标点导航的DQN改进框架,为解决农业场景中DRL算法的奖励稀疏和收敛问题提供了新思路。
2. 应用价值:MPN-DQN可显著提升农业机器人在弓字形作业中的自主性与安全性,为温室、果园等封闭场景的自动化作业提供技术支持。
3. 局限性:直线与转弯路径稳定性有待优化,未来拟针对四驱四转机器人进一步改进动作空间与奖励函数。

六、研究亮点
1. 创新方法:首次将多目标点分割与DQN结合,通过中线区域奖励函数规范作业轨迹,降低碰撞风险。
2. 技术突破:优先经验回放机制与动态探索策略的联合应用,使算法收敛速度提升34.68%(对比Dueling DQN)。
3. 场景适配性:针对农业封闭式作业环境设计的膨胀拟合与曲率约束(k=tanθ/lw),确保机器人运动符合实际动力学限制。

七、其他价值
本研究代码开源(未明确提及但可推测),实验数据详实(如导航时间104.27 s±3.2 s),可为后续农业机器人路径规划研究提供基准参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com