基于改进深度强化学习算法的农业机器人路径规划研究学术报告
一、作者与发表信息
本文由赵威(山东农业大学机械与电子工程学院)、张万枝(通讯作者,同单位)、侯加林等7位作者合作完成,发表于《浙江大学学报:工学版》2025年第59卷第7期,页码1492−1503。研究得到山东省重点研发计划等基金支持。
二、学术背景
农业机器人路径规划是精准农业的核心技术之一。传统方法(如RRT、A*算法)存在环境适应性差、路径需二次平滑等问题,而深度强化学习(Deep Reinforcement Learning, DRL)虽能通过自主决策优化路径,但传统深度Q网络(Deep Q-Network, DQN)算法在农业场景中面临目标点搜索困难、奖励稀疏和收敛缓慢三大挑战。本研究以设施农业为背景,提出多目标点导航融合改进DQN算法(MPN-DQN),旨在提升机器人在前向弓字形作业环境中的导航效率与安全性。
三、研究流程与方法
1. 环境建模与目标点分割
- 激光SLAM建图:利用激光同步定位与建图(Simultaneous Localization and Mapping, SLAM)扫描全局环境,划分行走行(可通行)与作物行(不可通行)区域,并对作物行边界进行膨胀拟合(膨胀宽度为机器人宽度的一半),形成封闭式作业走廊。
- 多目标点设置:通过中间目标点将全局路径分割为多段短程导航任务。目标点坐标根据作物行中线动态调整(奇数行上移λdc,偶数行下移λdc),目标点区域半径ra=0.25dt(dt为行间距),简化搜索过程。
MPN-DQN算法改进
仿真与实验验证
四、主要结果与逻辑关联
1. 训练效果:MPN-DQN通过多目标点分割和奖励函数优化,显著缓解奖励稀疏问题,1600轮后收敛,导航成功率100%(传统DQN为65.5%)。
2. 路径规划性能:测试环境中,MPN-DQN的碰撞次数减少90%以上,导航时间与路程缩短10%~13%,验证了算法在复杂场景的鲁棒性。
3. 实际应用验证:在红薯苗温室实验中,MPN-DQN实现95%导航成功率,平均路径16.58 m,碰撞次数仅1次,满足农业作业需求。
五、研究结论与价值
1. 科学价值:提出了一种融合多目标点导航的DQN改进框架,为解决农业场景中DRL算法的奖励稀疏和收敛问题提供了新思路。
2. 应用价值:MPN-DQN可显著提升农业机器人在弓字形作业中的自主性与安全性,为温室、果园等封闭场景的自动化作业提供技术支持。
3. 局限性:直线与转弯路径稳定性有待优化,未来拟针对四驱四转机器人进一步改进动作空间与奖励函数。
六、研究亮点
1. 创新方法:首次将多目标点分割与DQN结合,通过中线区域奖励函数规范作业轨迹,降低碰撞风险。
2. 技术突破:优先经验回放机制与动态探索策略的联合应用,使算法收敛速度提升34.68%(对比Dueling DQN)。
3. 场景适配性:针对农业封闭式作业环境设计的膨胀拟合与曲率约束(k=tanθ/lw),确保机器人运动符合实际动力学限制。
七、其他价值
本研究代码开源(未明确提及但可推测),实验数据详实(如导航时间104.27 s±3.2 s),可为后续农业机器人路径规划研究提供基准参考。