分享自:

多死角场景中机器人深度强化学习导航

期刊:计算机工程与应用DOI:10.3778/j.issn.1002-8331.2503-0329

东南大学仪器科学与工程学院曹青跃、王雅栋、王庆、张羽佳、阳媛团队在《计算机工程与应用》期刊(2025年6月网络首发)发表题为《多死角场景中机器人深度强化学习导航》的研究论文,提出了一种融合专家经验与混合奖励机制的深度强化学习(Deep Reinforcement Learning, DRL)导航方法,显著提升了复杂场景下机器人的自主导航性能。

学术背景

该研究属于机器人自主导航与人工智能交叉领域。传统导航方案依赖环境地图构建,但在无先验地图或动态障碍物场景中表现受限。基于深度强化学习的导航方法虽能通过试错学习策略,却面临训练效率低、稀疏奖励导致收敛慢、多死角场景中目标遮挡引发决策失衡等挑战。针对这些问题,研究团队旨在开发一种能平衡目标牵引与死角避让、同时提升训练效率与稳定性的DRL算法。

研究流程与方法

研究分为四个核心环节:

  1. 专家数据筛选与行为克隆预训练

    • 通过算法预训练收集41.4万条成功轨迹数据(约4000轮导航),筛选单步折扣回报大于0的样本作为伪专家数据。
    • 采用监督学习框架训练行为克隆(Behavior Cloning)模型,添加L2正则化(强度0.0004)和动作噪声(强度0.1),在测试集达到82%准确率。该模型用于初始化策略网络和值网络,缩短DRL训练初期探索时间约50%。
  2. 混合奖励函数设计

    • 结果奖励:成功到达(+200)、碰撞(-200)、超时(-200)。
    • 过程奖励
      • *偏移角奖励*:惩罚机器人朝向与目标方向的偏差(权重α=0.5);
      • *最小测距奖励*:鼓励远离障碍物(权重β=0.1);
      • *距离变化奖励*:激励接近目标(权重λ=5);
      • *死角避免奖励*:基于几何分析设定安全距离阈值(1.2米),通过指数函数施加动态惩罚,仅在接近死角时生效。
  3. 奖励聚中改进的PPO算法

    • 采用近端策略优化(Proximal Policy Optimization, PPO)框架,引入蒙特卡洛法估计优势函数。
    • 创新点:对折扣回报进行标准化处理(式11),消除轨迹间方差,提升训练稳定性。策略网络更新时结合剪切函数(ε=0.2)限制策略突变。
  4. 仿真实验验证

    • 训练环境:Gazebo仿真10m×10m地图,含固定障碍物和4个随机纸箱,TurtleBot3-burger机器人模型。
    • 对比算法
      • 算法5(PPO稀疏奖励)、算法4(PPO稠密奖励)、算法3(奖励聚中PPO)、算法2(行为克隆PPO)、算法1(完整算法)。
    • 测试指标:导航成功率、碰撞率、超时率及耗时。

主要结果

  1. 训练效率:行为克隆预训练使算法1仅需2000轮即收敛,较算法3(4000轮)效率提升1倍,最终平均奖励值高出其他算法100%。
  2. 导航性能
    • *随机起止点测试*:在三个未知环境中,算法1平均成功率91.3%,碰撞率最低(如环境1中仅7.5%)。
    • *固定起止点测试*:目标被死角遮挡时,算法1成功率95%(环境1和2达100%),耗时最短(54.7~60.1秒),显著优于对比算法(如TD3算法在环境3中成功率仅60%)。
  3. 消融实验
    • 移除死角避免奖励(算法2)导致环境3碰撞率升至15%;
    • 奖励聚中技术使算法3的奖励曲线波动较算法4降低30%。

结论与价值

该研究通过专家经验初始化、混合奖励函数和回报标准化三项创新,解决了DRL导航在复杂场景中的三大难题:
1. 科学价值:提出死角避让的几何约束量化方法,为局部最优问题提供新解决思路;
2. 应用价值:91.3%的导航成功率和短耗时表明其适用于物流、巡检等实际场景;
3. 方法论贡献:奖励聚中技术可泛化至其他长周期强化学习任务。

研究亮点

  1. 死角导航专用奖励设计:首次将几何安全区分析转化为可微奖励函数,实现目标牵引与避障的动态平衡;
  2. 训练加速框架:行为克隆与奖励聚中结合,较传统PPO训练周期缩短50%;
  3. 高泛化性:在未知环境中保持90%以上成功率,优于分层强化学习(朱威等,2024)和TD3(Tao等,2023)等现有方法。

其他发现

论文指出,当前方法适用于短距离避障,未来可通过虚拟目标点引导扩展至大范围导航。实验数据与代码已开源,为后续研究提供基准。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com