关于“Learning-Based End-to-End Path Planning for Lunar Rovers with Safety Constraints”一文的学术研究报告
一、 研究作者、机构及发表信息
本研究由哈尔滨工业大学航天学院的Xiaoqiang Yu、中国空间技术研究院的Ping Wang以及哈尔滨工业大学航天学院的Zexu Zhang(通讯作者)共同完成。研究成果以论文形式发表于期刊 Sensors,于2021年1月25日在线发表(Sensors 2021, 21, 796)。
二、 学术背景与研究目标
本研究属于深空探测、机器人学和人工智能的交叉领域,具体聚焦于月球巡视器(即月球车)的自主路径规划技术。随着人类月球探测任务的深入,未来的月球车需要具备更强的自主移动与探测能力,而路径规划是实现其安全、高效自主探索的核心技术之一。传统的路径规划方法通常分为全局规划和局部规划。全局规划基于轨道器拍摄的月面地形图,计算复杂度高,且受限于地图分辨率,仅能提供宏观指导。局部规划依赖车载传感器实时感知环境并进行三维重建与障碍物检测,然后规划轨迹,此过程计算量大,严重限制了巡视器的实时规划速度。
近年来,深度强化学习(Deep Reinforcement Learning, DRL)技术因其无需环境地图、学习能力强、对动态环境适应性强等优势,在移动机器人导航领域受到广泛关注。DRL的深度网络能够处理来自传感器的高维信息,其强化学习机制适合在复杂环境中进行连续决策。训练成功的网络模型可以直接基于传感器信息生成巡视器的最优控制指令,省去了传统算法中复杂的环境重建和感知步骤,非常适合月面这种未知环境且机载计算资源有限场景下的动态规划任务。
然而,现有的DRL算法大多基于简单的训练环境(如Gym平台)开发,与真实应用场景相去甚远,且普遍缺乏对巡视器运动安全性的充分考虑。针对上述问题,本研究旨在提出一种创新的、基于学习的、具有安全约束的端到端路径规划算法。其主要目标包括:1)构建一个集成真实月面地形数据的仿真训练环境;2)设计一个基于深度强化学习的端到端路径规划器,能够直接从传感器输入映射到控制指令;3)在规划器中嵌入安全约束,特别是考虑月面松软易滑土壤导致的滑移行为,以提升巡视器自主探索过程的安全性;4)通过课程学习(Curriculum Learning)思想,提高规划器对不同月面地形和不同尺度环境的泛化能力。
三、 研究详细工作流程
本研究的工作流程主要包括三大核心环节:仿真环境与巡视器模型构建、基于DRL的路径规划算法设计(包括状态空间、动作空间、网络架构、奖励函数和训练方法)、以及多场景训练与性能验证。
第一环节:构建高保真仿真训练系统。 为克服现有DRL研究在简单环境中训练的局限性,本研究利用机器人操作系统(Robot Operating System, ROS)中的Gazebo三维仿真环境及其集成的开源动力学引擎(Open Dynamic Engine, ODE),构建了一个贴近现实的月面巡视器训练系统。首先,研究下载了由中国嫦娥二号摄影形成的CE2TMap2015月球数字高程模型(Digital Elevation Model, DEM)数据集,选取了月球赤道附近具有典型地形特征(如大小陨石坑、山脉、月谷)的区域,并将其高程数据按比例缩放后,导入Gazebo生成了具有真实月面地形特征的仿真场景。其次,基于Jackal无人地面车辆模型,开发了月球巡视器仿真器。该仿真器具备运动学模型,并配备了两种关键传感器:用于探测潜在危险(如陨石坑、小岩石)的深度相机(Kinect-V1模型,探测范围0.1-10米,输出处理为4×80×80维数据)和用于探测远处障碍物(如山体、大岩石)的2D激光雷达(LMS100模型,探测范围0.1-20米,输出处理为3×180维数据)。传感器数据通过ROS话题发布,指令更新频率为5Hz。这一环境构建工作为算法训练提供了物理逼真、视觉渲染真实的试验平台。
第二环节:设计基于近端策略优化(Proximal Policy Optimization, PPO)的端到端路径规划算法。 研究将巡视器路径规划问题建模为马尔可夫决策过程(Markov Decision Process, MDP),并详细设计了其各个要素: 1. 状态空间:在时刻t,状态st由三部分组成:深度图像数据st1(4×80×80维)、激光雷达点云数据st2(3×180维)、以及巡视器与目标的状态信息st3(1×4维,包括巡视器与目标点的相对角度和距离,以及上一时刻的线速度和角速度)。所有状态信息均进行了归一化处理。 2. 动作空间:动作at为控制巡视器运动的线速度vt和角速度ωt指令。为便于网络决策,将其离散化为10个动作值,对应不同的速度组合(例如,动作0对应[1 m/s, 1 rad/s],动作7对应[0.5 m/s, 0 rad/s]等)。 3. 网络架构:采用卷积神经网络(CNN)从传感器信息中提取环境特征,并用深度神经网络近似强化学习的价值和策略函数。网络输入为上述状态,输出为10个离散动作的选择概率。具体而言,网络包含三个处理块:一个三层二维CNN处理深度图像提取地形特征;一个两层一维CNN处理激光雷达点云数据提取障碍物特征;最后将处理后的特征与状态信息st3融合,通过一个两层全连接网络映射到动作,并使用Softmax函数输出动作值的概率分布。 4. 奖励函数:这是本研究的核心创新点之一。奖励函数设计为距离奖励和安全奖励的加权和:Rt = R_dis + αs * R_safe。其中,αs为可调的安全因子。 * 距离奖励R_dis:引导巡视器向目标点移动。当与目标点距离小于阈值d_goal时给予正奖励;当与最近障碍物距离小于安全阈值d_min时给予负奖励;其他情况下,奖励值为上一时刻与当前时刻到目标点距离的差值,鼓励缩短距离。 * 安全奖励R_safe:旨在保障巡视器安全,防止滑移、倾覆等。若巡视器的实时俯仰角θt或横滚角φt超过最大安全角度(θ_max, φ_max),则给予大的负奖励。否则,安全奖励与预测的滑移率(slip_t)和滑移角(β_t)负相关。滑移率和滑移角被建模为俯仰角和横滚角的函数(slipt = a*e^(bθt), βt = c*e^(dφt)),其中常数a, b, c, d根据文献中轮式巡视器在给定地形上的运动行为确定。该设计使得算法在学习规划路径时,能主动避开可能导致大滑移率或大姿态角的不安全地形。 5. 训练方法:采用PPO算法训练网络。PPO是一种策略梯度算法,通过引入剪辑(clip)函数限制策略更新幅度,提高了训练的稳定性和收敛性。研究还采用了课程学习策略:首先在50m×50m的平坦地形小场景中训练,调试参数并学习到达目标点的基本能力;然后逐步增加场景范围(至200m×200m)和地形复杂性;最后在1000m×1000m加载了真实月面地形的复杂大场景中进行训练,并逐步提高安全因子αs。这种循序渐进的学习方式有效提升了规划器对不同尺度和不同地形特征的适应能力。
第三环节:仿真实验与对比分析。 研究设置了三个由易到难的训练场景进行网络训练,并记录了训练过程中的累积奖励曲线。训练完成后,在三个场景中对训练好的网络模型进行了各1000回合的评估,统计了成功率、平均路径长度、平均滑移率和平均滑移角等性能指标。此外,为验证算法的优越性,在大型路径规划场景中,将本研究提出的PPO算法与两种经典算法进行了对比:基于值函数的深度强化学习DQN算法(使用相同的网络结构和训练过程)以及基于启发式搜索的A*算法(需要预先将高程图转换为可通行性二元图进行搜索)。对比实验在五个不同的测试场景中进行,每个场景随机选择10组距离超过500米的起点和终点,统计了路径长度、滑移率、滑移角以及巡视器行驶过程中的最大俯仰角和横滚角等数据。
四、 主要研究结果
仿真训练结果表明,本研究提出的算法在三个不同场景中均能有效学习。累积奖励曲线随着训练回合增加而逐步上升并收敛,说明巡视器逐步学会了采取高奖励的动作。评估结果显示,在场景1(简单平坦)、场景2(中等复杂)和场景3(真实地形、大尺度)中,规划器到达目标点的成功率分别为99.5%, 95.1%和88.6%。随着地形复杂度增加,平均路径长度和平均滑移率有所上升,这符合预期。特别是在场景3中,即使存在大型陨石坑或山脉,且车载传感器探测距离有限,规划器仍能成功实现大规模(如400米)的路径规划,证明了其良好的泛化能力。
与DQN和A*算法的对比结果凸显了本研究所提算法的安全优势。虽然A*算法生成的路径长度通常最短(因为它基于全局地图信息进行最优搜索),而PPO和DQN生成的路径有时更长,但在安全性指标上,PPO算法表现显著更优。具体数据显示,PPO算法规划路径的平均滑移率(0.0276)远低于DQN(0.0528)和A*(0.0844)。同时,PPO路径对应的平均滑移角(2.0648°)以及巡视器行驶过程中的最大俯仰角(13.3583°)和最大横滚角(8.4252°)也均低于对比算法。图9(b)清晰地展示了三种算法规划路径上滑移率和滑移角的变化情况,PPO算法能够将这两个安全指标维持在更低的水平。这表明,通过精心设计的安全奖励函数,PPO算法学会主动选择那些地形更平坦、倾角更小、从而滑移风险更低的路线,尽管这可能以略微增加路径长度为代价。
五、 研究结论与价值
本研究成功提出并验证了一种基于学习、具有安全约束的端到端月球巡视器路径规划算法。主要结论如下:首先,利用Gazebo仿真环境和真实月球DEM数据构建的训练系统,为学习型算法在贴近实际的场景中训练与验证提供了可行方案。其次,所设计的基于PPO的DRL框架,结合考虑滑移行为的安全奖励函数,能够使巡视器仅依靠深度相机和激光雷达的实时感知信息,直接输出控制指令,实现从感知到动作的端到端规划,省去了复杂的环境重建步骤。最后,通过课程学习策略训练的规划器,能够适应不同尺度和不同地形复杂度的月面环境,并且其生成的路径相较于传统的A*算法和基础的DQN算法,具有更高的安全性保障,能有效降低巡视器在行驶过程中的滑移风险。
该研究的科学价值在于,将深度强化学习前沿技术应用于深空探测的典型挑战性问题,提出了一种融合真实物理仿真、安全约束建模和课程学习策略的完整解决方案,推动了人工智能在航天自主系统中的应用。其应用价值显著,为未来具备高度自主能力的月球、火星等行星巡视器的路径规划系统提供了一种新的技术途径,有助于提升巡视器的探测效率、安全性和环境适应性。
六、 研究亮点
七、 其他有价值内容与未来展望
论文在讨论部分也坦诚指出了当前工作的局限性及未来方向。首先,构建的仿真环境仅考虑了真实地形,而真实的月面/空间环境还包括光照、电磁、温度等极端条件,这些对传感器和运动系统有重大影响,构建更完整的空间仿真环境是持续的挑战。其次,由于车载传感器探测范围的限制,规划器有时无法有效提前规避大型障碍物(如巨大陨石坑)。为此,作者提出后续可采用分层规划的思路,将基于全局地图信息的路径点规划与本文提出的实时端到端局部规划相结合,以实现更大范围的自主探测。这些思考为后续研究指明了有价值的改进方向。