这篇研究论文属于类型a:单篇原创性研究报道。以下是对该研究的综合学术报告:
该研究由来自中国南开大学人工智能学院、机器人及自动化信息系统研究所(IRAlS)以及天津市智能机器人重点实验室的Zhejin Zhu、Runhua Wang、Yisong Wang和Xuebo Zhang(IEEE高级会员)团队,与湖南大学国家RVC工程研究中心的Yaonan Wang共同完成。论文《Environment-adaptive motion planning via reinforcement learning-based trajectory optimization》发表于IEEE Transactions on Automation Science and Engineering期刊2025年第22卷。
在自动化移动机器人技术广泛应用的背景下(涵盖工业自动化、医疗服务、仓储运输等领域),运动规划(motion planning)是机器人自主执行任务的关键。传统运动规划方法主要分为两类:基于采样的方法(如动态窗口法DWA及其变体、快速扩展随机树RRT及其变体)和基于优化的方法(如时间弹性带TEB系列算法)。然而这些方法存在明显局限:面对新任务和场景时缺乏自主学习和自适应调整能力;通常不包含从历史经验学习或预测未来状态的机制。
与此同时,新兴的基于学习的方法(如深度强化学习DRL)虽然展现出显著的环境适应性和动态自调整能力,但也存在明显缺陷:训练成本高、可解释性差、容易过拟合训练环境、存在显著的仿真与现实差距(sim2real gap)问题。这促使研究者寻求一种融合传统运动规划方法与学习方法的”中间道路”。
该研究旨在开发一种新型环境自适应运动规划框架,通过深度强化学习(DRL)动态调整优化目标,结合经典优化框架的运动规划主干,实现既保持传统方法可解释性和稳定性,又具备DRL技术自适应能力的混合策略。
研究团队设计了一种两阶段多目标优化算法。第一阶段从空间角度优化位置,通过非线性多目标函数优化平滑度(js)、与参考路径偏差(jd)、路径长度(jl)和安全性(jo)四个指标;第二阶段从时间角度优化轨迹点的时间序列,考虑速度/角速度约束(jvω)、加速度/角加速度约束(jaα)、安全距离(jdny)和时间效率(jt)等目标函数。这两个阶段共同产生符合平滑、安全、高效标准的优化轨迹。
研究将导航问题建模为马尔可夫决策过程(MDP),状态空间(st)精心设计为五个组成部分:激光雷达数据(otd)、机器人运动状态(otv)、前一动作(θt-1)、局部目标点(otg)和初始粗路径信息(otp)。动作空间(at)为规划器参数θt,包含两阶段优化算法中各目标函数的权重和预设参数。采用TD3(Twin Delayed Deep Deterministic Policy Gradient)算法训练策略网络,这种方法通过”延迟”策略更新和”双”评论家机制减少价值高估风险。
研究采用Gazebo 9.0构建仿真环境,使用Clearpath Jackal差速驱动机器人模型,配备Sick激光雷达。训练数据来自BARN数据集的250个场景,测试场景包括BARN数据集的50个独立场景、MRPB 1.0数据集中的狭窄通道和商场场景,以及团队自建的动态场景(四个自由行走行人)。真实世界实验使用配备Hokuyo激光扫描仪的P3DX机器人,在未知环境中测试算法性能。
数据分析采用三个关键指标:成功率(机器人无碰撞到达目标的比例)、时间成本(从起点到目标的平均时间)和轨迹长度(机器人行走的平均路径长度)。通过与传统方法(TEB、DWA)、优化基础的SBA算法和端到端(End-to-End)DRL方法的对比验证算法效果。
在BARN基准测试中,研究提出的方法获得了最高的成功率(97.8%)、最短的导航时间(13.8s)和最低的轨迹长度(24.6m),显著优于对比方法。重量参数动态调整分析显示,系统能根据环境复杂度自适应调整权重:在开阔区域增加路径长度权重(w1)以提高效率;在密集区域提高避障权重(wo)确保安全。
在挑战性的狭窄场景中,该方法在保持高安全性的同时展现出环境自适应折中能力:虽然时间成本略高于端到端方法(+9.3%),但成功率提高显著(+18.6%)。在长距离导航的商场场景中,算法维持稳定性能,而端到端方法完全无法完成任务。在四人动态测试场景中,该方法仍保持最佳表现。
以纯优化方法(70%成功率,20s时间成本)为基准: - 仅使用基本观察空间(vanilla-observation)的方法提升9.95%成功率和降低28.92%时间成本 - 完整方法(完整观察空间)显著提升28.77%成功率和降低34.20%时间成本
在障碍物区域场景中: - 该方法与TEB都能成功避障,但时间效率更高(减少22.1%时间) - 轨迹长度比DWA略长但安全性显著提高(零碰撞)
在拥挤办公室场景中: - 成功率达到96.7%,较TEB提高17% - 时间成本降低29% - 速度曲线分析显示系统能根据环境自适应调整优化目标优先级
重要的是,神经网络模型在仿真和现实中保持一致,无需额外训练或调整参数即可适应真实环境,这归功于DRL运动规划框架和低维传感器输入设计。
这项研究提出了一个创新的环境自适应运动规划框架,通过将DRL与传统优化方法相结合,有效克服了两类方法的固有局限。科学价值体现在: 1. 提出了一种新的混合运动规划范式,平衡了传统方法的可解释性与学习方法的适应性 2. 设计了新颖的两阶段优化结构和强化学习策略 3. 构建了全面考虑环境感知和任务状态的观察空间
应用价值表现在: - 在未知杂乱的真实办公室环境中,安全性(成功率提高17%)和效率(时间成本降低29%)显著提升 - 有效减小sim2real差距,无需重新训练即可在真实世界部署 - 为移动机器人在动态复杂环境中的长期自主运行提供了可靠解决方案
研究团队发现了当前系统的局限:使用单线2D激光雷达无法检测显著高于或低于扫描平面的障碍物,这提示了未来研究方向——整合3D激光传感以实现更全面的环境感知。此外,团队计划进一步探索将传统方法(如基于采样和搜索的策略)与学习导航框架集成。论文补充视频(https://youtu.be/ph0pdgpi864)直观展示了算法在各种场景中的表现,为理解方法优势提供了重要参考。