分享自:

基于深度强化学习的综合未知环境中自主移动机器人路径规划

期刊:IEEE Internet of Things JournalDOI:10.1109/JIOT.2024.3379361

自主移动机器人在未知环境中的路径规划:基于深度强化学习的改进研究

一、研究团队与发表信息
本文由Zekun Bai、Hui Pang(IEEE会员)、Zhaonian He、Bin Zhao和Tong Wang合作完成,团队成员均来自西安理工大学机械与精密仪器工程学院。研究发表于《IEEE Internet of Things Journal》2024年6月刊(Volume 11, Issue 12),标题为《Path Planning of Autonomous Mobile Robot in Comprehensive Unknown Environment Using Deep Reinforcement Learning》。


二、学术背景与研究目标
科学领域:本文属于机器人路径规划与深度强化学习(Deep Reinforcement Learning, DRL)的交叉领域,聚焦自主移动机器人(Autonomous Mobile Robot, AMR)在未知复杂环境中的实时路径规划问题。

研究动机
传统路径规划算法(如A*、RRT、APF)在未知环境中存在局限性,例如依赖全局环境信息、计算效率低、抗干扰能力弱。而现有基于DRL的方法(如DQN)则面临收敛速度慢、路径安全性不足和轨迹冗余等问题。针对这些挑战,本研究提出了一种改进的双深度Q网络(Improved Double Deep Q Network, IDDQN)算法,旨在实现更高效、安全的AMR路径规划。

研究目标
1. 设计综合奖励函数以提高路径搜索效率和安全性;
2. 开发自适应ε-贪婪策略优化探索-利用平衡;
3. 结合贝塞尔曲线(Bezier Curve)实现路径平滑化;
4. 验证算法在未知动态环境中的鲁棒性。


三、研究流程与方法
1. 马尔可夫决策过程(MDP)建模
- 状态空间:包含AMR的位置坐标(x, y)、与目标的欧氏距离(td)及与障碍物的距离(od),构成4维矩阵(式7)。
- 动作空间:定义8种离散动作(上、下、左、右及四个对角线方向),动作执行通过栅格环境转移规则实现(式8)。
- 奖励函数设计(式9-13):
- 目标奖励(rτ1):鼓励AMR快速接近目标区域;
- 距离奖励(rτ2):以欧氏距离为启发式项,减少搜索盲目性;
- 边界惩罚(rτ3)与障碍物惩罚(rτ4):确保路径安全性与边界约束。

2. 改进的双深度Q网络(IDDQN)算法
- 网络架构:当前网络与目标网络采用相同的深度神经网络(DNN),包含1个输入层、3个隐藏层(ReLU激活函数)和1个输出层(图10)。
- 创新点
- 自适应ε-贪婪策略(式15):动态调整探索概率ε,初期侧重探索环境,后期偏向利用经验;
- Adam优化器:自适应调整学习率,结合梯度截断防止梯度爆炸。
- 目标Q值计算(式6):通过解耦动作选择与价值评估,减少Q值高估问题。

3. 路径平滑化处理
- 贝塞尔曲线理论(式16-17):对离散路径点进行二阶贝塞尔插值,确保轨迹连续性与平滑性。

4. 仿真验证
- 实验设置
- 环境:4种30×30栅格地图(单/多目标、静态/动态障碍物);
- 对比算法:DQN、A*、RRT、APF;
- 评估指标:路径长度(APL)、拐点数(PCs)、最大转向角(MPTA)、最小避障距离(MDTC)、推理时间(IT)。
- 扰动测试:在随机位移干扰环境下验证算法鲁棒性(表III-IV)。


四、主要结果
1. 性能对比
- 路径安全性:IDDQN规划路径与障碍物的最小距离均≥0.5米,优于A*和RRT(图12)。
- 路径长度:在四种环境中,IDDQN较DQN缩短路径7.26%~11.69%(表II)。
- 收敛速度:IDDQN训练步数较DQN减少26.40%~52.91%(图13)。

2. 抗干扰能力
- 在动态扰动环境中,IDDQN成功完成多目标路径规划,路径长度仅增加10.12%,且保持避障能力(图15-16)。


五、结论与价值
科学价值
1. 提出了一种结合启发式奖励与自适应探索策略的DRL框架,为未知环境路径规划提供了新思路;
2. 验证了贝塞尔曲线在强化学习路径平滑化中的有效性。

应用价值
1. 适用于医疗、空间探测等AMR应用场景;
2. 为动态干扰环境下的实时路径规划提供了可靠解决方案。


六、研究亮点
1. 综合奖励函数:融合目标导向、距离启发与安全约束,显著提升搜索效率;
2. 自适应探索机制:通过非线性ε衰减平衡探索与利用,加速收敛;
3. 端到端平滑规划:首次将贝塞尔曲线嵌入DRL框架,解决离散动作输出的不连续问题。


七、其他贡献
- 开源仿真代码与超参数配置(表I),便于后续研究复现与改进;
- 首次系统评估了DRL算法在未知扰动环境中的适应性,为实际部署提供了实验基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com