多死角场景中机器人深度强化学习导航

分享自：
多死角场景中机器人深度强化学习导航

信息科学
机械
人工智能
工程学
计算机科学
期刊:计算机工程与应用DOI:10.3778/j.issn.1002-8331.2503-0329
【点击此处】阅读全文、收藏及针对性提问
东南大学仪器科学与工程学院曹青跃、王雅栋、王庆、张羽佳、阳媛团队在《计算机工程与应用》期刊（2025年6月网络首发）发表题为《多死角场景中机器人深度强化学习导航》的研究论文，提出了一种融合专家经验与混合奖励机制的深度强化学习（Deep Reinforcement Learning, DRL）导航方法，显著提升了复杂场景下机器人的自主导航性能。
学术背景该研究属于机器人自主导航与人工智能交叉领域。传统导航方案依赖环境地图构建，但在无先验地图或动态障碍物场景中表现受限。基于深度强化学习的导航方法虽能通过试错学习策略，却面临训练效率低、稀疏奖励导致收敛慢、多死角场景中目标遮挡引发决策失衡等挑战。针对这些问题，研究团队旨在开发一种能平衡目标牵引与死角避让、同时提升训练效率与稳定性的DRL算法。
研究流程与方法研究分为四个核心环节：
专家数据筛选与行为克隆预训练
通过算法预训练收集41.4万条成功轨迹数据（约4000轮导航），筛选单步折扣回报大于0的样本作为伪专家数据。
 
采用监督学习框架训练行为克隆（Behavior Cloning）模型，添加L2正则化（强度0.0004）和动作噪声（强度0.1），在测试集达到82%准确率。该模型用于初始化策略网络和值网络，缩短DRL训练初期探索时间约50%。
混合奖励函数设计
结果奖励：成功到达（+200）、碰撞（-200）、超时（-200）。
 
过程奖励：
 *偏移角奖励*：惩罚机器人朝向与目标方向的偏差（权重α=0.5）；
 
*最小测距奖励*：鼓励远离障碍物（权重β=0.1）；
 
*距离变化奖励*：激励接近目标（权重λ=5）；
 
*死角避免奖励*：基于几何分析设定安全距离阈值（1.2米），通过指数函数施加动态惩罚，仅在接近死角时生效。
 
奖励聚中改进的PPO算法
采用近端策略优化（Proximal Policy Optimization, PPO）框架，引入蒙特卡洛法估计优势函数。
 
创新点：对折扣回报进行标准化处理（式11），消除轨迹间方差，提升训练稳定性。策略网络更新时结合剪切函数（ε=0.2）限制策略突变。
 
仿真实验验证
训练环境：Gazebo仿真10m×10m地图，含固定障碍物和4个随机纸箱，TurtleBot3-burger机器人模型。
 
对比算法：
 算法5（PPO稀疏奖励）、算法4（PPO稠密奖励）、算法3（奖励聚中PPO）、算法2（行为克隆PPO）、算法1（完整算法）。
 
测试指标：导航成功率、碰撞率、超时率及耗时。
 
主要结果训练效率：行为克隆预训练使算法1仅需2000轮即收敛，较算法3（4000轮）效率提升1倍，最终平均奖励值高出其他算法100%。
 
导航性能：
 *随机起止点测试*：在三个未知环境中，算法1平均成功率91.3%，碰撞率最低（如环境1中仅7.5%）。
 
*固定起止点测试*：目标被死角遮挡时，算法1成功率95%（环境1和2达100%），耗时最短（54.7~60.1秒），显著优于对比算法（如TD3算法在环境3中成功率仅60%）。
 
消融实验：
 移除死角避免奖励（算法2）导致环境3碰撞率升至15%；
 
奖励聚中技术使算法3的奖励曲线波动较算法4降低30%。
 
结论与价值该研究通过专家经验初始化、混合奖励函数和回报标准化三项创新，解决了DRL导航在复杂场景中的三大难题：
 1. 科学价值：提出死角避让的几何约束量化方法，为局部最优问题提供新解决思路；
 2. 应用价值：91.3%的导航成功率和短耗时表明其适用于物流、巡检等实际场景；
 3. 方法论贡献：奖励聚中技术可泛化至其他长周期强化学习任务。
研究亮点死角导航专用奖励设计：首次将几何安全区分析转化为可微奖励函数，实现目标牵引与避障的动态平衡；
 
训练加速框架：行为克隆与奖励聚中结合，较传统PPO训练周期缩短50%；
 
高泛化性：在未知环境中保持90%以上成功率，优于分层强化学习（朱威等，2024）和TD3（Tao等，2023）等现有方法。
 
其他发现论文指出，当前方法适用于短距离避障，未来可通过虚拟目标点引导扩展至大范围导航。实验数据与代码已开源，为后续研究提供基准。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问