东南大学仪器科学与工程学院曹青跃、王雅栋、王庆、张羽佳、阳媛团队在《计算机工程与应用》期刊(2025年6月网络首发)发表题为《多死角场景中机器人深度强化学习导航》的研究论文,提出了一种融合专家经验与混合奖励机制的深度强化学习(Deep Reinforcement Learning, DRL)导航方法,显著提升了复杂场景下机器人的自主导航性能。
学术背景
该研究属于机器人自主导航与人工智能交叉领域。传统导航方案依赖环境地图构建,但在无先验地图或动态障碍物场景中表现受限。基于深度强化学习的导航方法虽能通过试错学习策略,却面临训练效率低、稀疏奖励导致收敛慢、多死角场景中目标遮挡引发决策失衡等挑战。针对这些问题,研究团队旨在开发一种能平衡目标牵引与死角避让、同时提升训练效率与稳定性的DRL算法。
研究流程与方法
研究分为四个核心环节:
专家数据筛选与行为克隆预训练
- 通过算法预训练收集41.4万条成功轨迹数据(约4000轮导航),筛选单步折扣回报大于0的样本作为伪专家数据。
- 采用监督学习框架训练行为克隆(Behavior Cloning)模型,添加L2正则化(强度0.0004)和动作噪声(强度0.1),在测试集达到82%准确率。该模型用于初始化策略网络和值网络,缩短DRL训练初期探索时间约50%。
混合奖励函数设计
- 结果奖励:成功到达(+200)、碰撞(-200)、超时(-200)。
- 过程奖励:
- *偏移角奖励*:惩罚机器人朝向与目标方向的偏差(权重α=0.5);
- *最小测距奖励*:鼓励远离障碍物(权重β=0.1);
- *距离变化奖励*:激励接近目标(权重λ=5);
- *死角避免奖励*:基于几何分析设定安全距离阈值(1.2米),通过指数函数施加动态惩罚,仅在接近死角时生效。
奖励聚中改进的PPO算法
- 采用近端策略优化(Proximal Policy Optimization, PPO)框架,引入蒙特卡洛法估计优势函数。
- 创新点:对折扣回报进行标准化处理(式11),消除轨迹间方差,提升训练稳定性。策略网络更新时结合剪切函数(ε=0.2)限制策略突变。
仿真实验验证
- 训练环境:Gazebo仿真10m×10m地图,含固定障碍物和4个随机纸箱,TurtleBot3-burger机器人模型。
- 对比算法:
- 算法5(PPO稀疏奖励)、算法4(PPO稠密奖励)、算法3(奖励聚中PPO)、算法2(行为克隆PPO)、算法1(完整算法)。
- 测试指标:导航成功率、碰撞率、超时率及耗时。
主要结果
- 训练效率:行为克隆预训练使算法1仅需2000轮即收敛,较算法3(4000轮)效率提升1倍,最终平均奖励值高出其他算法100%。
- 导航性能:
- *随机起止点测试*:在三个未知环境中,算法1平均成功率91.3%,碰撞率最低(如环境1中仅7.5%)。
- *固定起止点测试*:目标被死角遮挡时,算法1成功率95%(环境1和2达100%),耗时最短(54.7~60.1秒),显著优于对比算法(如TD3算法在环境3中成功率仅60%)。
- 消融实验:
- 移除死角避免奖励(算法2)导致环境3碰撞率升至15%;
- 奖励聚中技术使算法3的奖励曲线波动较算法4降低30%。
结论与价值
该研究通过专家经验初始化、混合奖励函数和回报标准化三项创新,解决了DRL导航在复杂场景中的三大难题:
1. 科学价值:提出死角避让的几何约束量化方法,为局部最优问题提供新解决思路;
2. 应用价值:91.3%的导航成功率和短耗时表明其适用于物流、巡检等实际场景;
3. 方法论贡献:奖励聚中技术可泛化至其他长周期强化学习任务。
研究亮点
- 死角导航专用奖励设计:首次将几何安全区分析转化为可微奖励函数,实现目标牵引与避障的动态平衡;
- 训练加速框架:行为克隆与奖励聚中结合,较传统PPO训练周期缩短50%;
- 高泛化性:在未知环境中保持90%以上成功率,优于分层强化学习(朱威等,2024)和TD3(Tao等,2023)等现有方法。
其他发现
论文指出,当前方法适用于短距离避障,未来可通过虚拟目标点引导扩展至大范围导航。实验数据与代码已开源,为后续研究提供基准。