月球南极漫游车任务路径规划算法研究

分享自：
月球南极漫游车任务路径规划算法研究

航空航天工程
计算机科学
人工智能
工程学
信息科学
期刊:acta astronauticaDOI:10.1016/j.actaastro.2025.07.059
【点击此处】阅读全文、收藏及针对性提问
关于“面向月球南极巡视器任务的新型路径规划算法”的学术研究报告
本文旨在向学术界同仁介绍一项发表于《Acta Astronautica》期刊第237卷（2025年）的原创性研究。该研究题为“Path planning algorithm for a south pole lunar rover mission”，由加拿大航天局（Canadian Space Agency）和蒙特利尔理工学院（Polytechnique Montréal）的研究团队共同完成。主要作者包括Feng Yang Chen（通讯作者）、Natasha Jackson、Pierre Allard以及Giovanni Beltrame。研究针对未来月球南极探测任务中，巡视器（月球车）在复杂动态环境下进行多点科学探索的自主路径规划难题，提出了一种创新的任务规划工具。
一、 研究背景与目的 本研究的学术领域属于航天器自主导航与路径规划，具体聚焦于地外天体表面移动机器人的任务级规划。随着美国“阿尔忒弥斯”（Artemis）计划及“门户”（Gateway）月球轨道站项目的推进，人类重返月球已成为现实目标。加拿大通过其“月球探索加速计划”（Lunar Exploration Accelerator Program, LEAP）参与其中，并计划在2027年左右发射一台加拿大月球巡视器。
与地球环境不同，月球表面，尤其是极地地区，对巡视器的生存与作业构成了多重严峻挑战：1) 静态地形障碍：如岩石、陡坡等崎岖地形；2) 动态环境约束：光照（影响太阳能供电）和与地球的通信链路会随时间（月球日）变化，形成移动的“阴影”禁区；3) 地月通信延迟：使得地面操作员难以实时指挥，要求巡视器具备高度的自主性或需进行高效的长时间任务规划。传统上，操作员手动规划路径耗时耗力，且难以在多个科学兴趣点（Points of Interest, POIs）间统筹全局，确保路径在全程满足能量与通信约束。
因此，本研究的目标是开发一种新型的任务规划工具，以解决多目标点、动态约束下的全局路径规划问题。该问题本质上是NP-hard（非确定性多项式困难）问题。研究旨在实现两个核心功能：首先，从一系列科学兴趣点中，自动计算出一个在给定任务时限内、能最大化科学回报（科学评分）且总行驶距离较优的探索序列（顺序）；其次，为该序列中的每一个航点（Waypoint）生成精确、可行的连续轨迹，该轨迹必须全程避开静态障碍，并确保巡视器始终处于光照区（供电）和与地球的通信可视区内。
二、 研究方法与详细工作流程 本研究提出的任务规划工具由两个核心组件构成：1) 序列规划器（Estimator）：采用一种改进的两阶段遗传算法（Two-step Genetic Algorithm），用于确定探索顺序并估算每个航点的访问时间戳。2) 详细路径规划器（Detailed Path Planner）：采用一种新颖的多向快速探索随机树星算法（Multi-directional RRT*, MD-RRT*），用于在三维空间（二维位置+时间）中计算满足所有约束的连续轨迹。整个工作流程如下图所示（基于文中图2描述）：
第一阶段：基于两阶段遗传算法的探索序列规划 此阶段输入包括：起始点、目标点、一系列待探索的科学兴趣点（每个点有预设的科学评分1-5）、任务总时间限制、巡视器平均速度以及静态障碍地图。输出是一个有序的增强航点序列，每个点包含坐标和预计访问时间。
步骤1：最大化科学评分
研究对象与编码：每个科学兴趣点被视为一个“染色体”。算法初始化时，随机生成多个“个体”（即可能的探索序列），每个序列由起始点、随机选取的部分兴趣点（按随机顺序）以及目标点构成。
时间戳分配与可行性检查：在构建序列时，根据巡视器平均速度和估算的航点间距离（使用仅考虑静态障碍的2D B-RRT*算法预先计算距离矩阵），为每个选中的兴趣点分配一个预计访问时间。随后，检查在该时间点，该位置是否满足动态约束（即有光照、可通信）。若不满足，则丢弃该点，尝试其他点。同时，整个序列的完成时间不能超过总任务时限。
适应度函数与进化：此步骤的适应度函数是序列的总科学评分（所有途经兴趣点评分之和）。算法通过选择（Selection）、交叉（Crossover）、变异（Mutation） 等遗传算子进行迭代进化。选择算子保留评分高的个体；交叉算子将两个父代个体的航点合并，生成新子代序列；变异算子以一定概率随机替换序列中的某个航点。每次生成新序列都需重新进行时间戳分配和可行性检查。经过多代进化后，算法输出一个在时间限制内、能最大化科学评分的可行序列S*。
步骤2：最小化行驶距离
研究对象：此步骤的输入是上一步得到的最佳序列S*中所包含的兴趣点集合（顺序可能并非最优）。
重新排序优化：算法初始化一个种群，其中的个体是S*中兴趣点的不同排列组合（顺序）。此步骤的适应度函数变为序列的总行驶距离（同样基于2D B-RRT*估算的距离）。
遗传操作：主要使用互换（Interchange） 算子，即随机交换序列中两个航点的位置，以产生新的序列排列。同样需要进行时间可行性检查。通过迭代优化，算法寻找能使总行驶距离最小化的序列顺序，最终输出优化后的序列S**。
第二阶段：基于MD-RRT*的详细三维轨迹规划 此阶段输入为第一阶段输出的有序增强航点序列S**（包含时间戳），以及包含静态障碍和动态（时间相关）障碍的三维环境模型。输出是一条连接所有航点的连续、可行轨迹。
算法核心：MD-RRT* 研究空间：将规划空间从二维（x, y）扩展为三维（x, y, t），其中时间t作为第三维度。这使得动态约束（如某区域在特定时间处于阴影中）可以被建模为随时间变化的障碍物。
多树构建：对于有m个中间兴趣点的序列，MD-RRT会构建2(m+1)棵搜索树。具体而言，除了起始点和目标点各有一棵单向树（起始点树时间向前搜索，目标点树时间向后搜索），每个中间兴趣点都会生成两棵搜索树：一棵从其时间戳向前搜索，一棵从其时间戳向后搜索。
双向连接搜索（B-RRT*）作为子模块：MD-RRT*的核心是反复调用双向快速探索随机树星算法（Bidirectional RRT*, B-RRT*）。B-RRT*同时在两个方向（如从前一个航点向后搜索，从当前航点向前搜索）生长随机树，并尝试连接它们。该算法包含采样（Sample）、寻找近邻节点（NearVertices）、选择最佳父节点（ChooseBestParent）、添加节点（AddVertex）、重布线（Rewire）和尝试连接（Connect）等步骤。其“重布线”步骤保证了算法的渐近最优性。在三维空间中，采样和生长必须严格遵守时间顺序。
轨迹生成流程：MD-RRT*依次为序列中相邻的每对航点（如前一个目标点与当前起点）运行B-RRT*，寻找连接它们的三维无碰撞轨迹（σ_fa）。若某段轨迹因动态障碍无法在预定时间窗内找到，算法会尝试“延迟”后一个航点的时间戳（增加柔性），并重新规划。最终，将所有分段轨迹（σ_fa）拼接起来，形成从起点到终点的完整可行轨迹σ_f。
三、 主要研究结果 研究团队使用模拟的月球南极地形、光照及通信条件数据，对该规划工具进行了测试，并将其结果与加拿大航天局（CSA）操作员手动规划的路径进行了对比。
对比实验设置：共进行了30次不同着陆点、不同任务时间的模拟任务规划测试。工具参数固定（如遗传算法迭代500代，MD-RRT*迭代500次等）。两名独立操作员在拥有相同信息（起点、终点、兴趣点、障碍地图、动态约束）的情况下，手动规划他们认为最优的路径。
性能对比结果： 可行性：在所有30次测试中，工具均生成了可行的轨迹（即全程满足所有约束）。而操作员手动规划的轨迹中有4次被工具判定为不可行（主要原因是未能完全规避动态阴影区或通信盲区）。
路径质量：在其余26次双方都生成可行轨迹的对比中，工具生成的轨迹在总行驶距离和总任务时间上均优于或等于操作员规划的结果。具体数据（见文中表A.4）显示，工具规划路径的平均距离和时间更短。
统计显著性：研究者对工具与操作员路径在距离和时间上的差值进行了t检验。结果表明，工具在缩短行驶距离（p < 0.0054）和任务时间（p < 0.0001）方面的优势具有统计学显著性。
最优性验证：为了验证工具所得解的质量接近全局最优，研究者选取了3个较小规模的任务实例（7-8个兴趣点），通过穷举法（暴力搜索所有排列组合）并结合参数调优（增加MD-RRT*迭代至1000次）来寻找理论最优解。对比发现（见文中表A.3），工具给出的探索顺序与最优解完全一致，路径长度和时间略高于最优解（差异在3.4%-5.3%之间）。这证明了工具的两阶段遗传算法在排序问题上非常有效，而MD-RRT*随着迭代增加能逼近轨迹本身的最优解。
结果示例：文中以一次具体的任务规划为例（图10），直观展示了操作员规划路径与工具规划路径的差异。工具生成的路径更精确地贴合了地形可通行区域（绿色），且由于严格考虑了全时段动态约束，其路径在实际执行中更具可靠性和效率。图11展示了工具规划出的三维（含时间维度）轨迹，验证了其时间维度的单调递增性（符合时间流向）。
四、 研究结论与价值 本研究成功开发并验证了一套用于月球巡视器多点探测任务的全自动规划工具。该工具通过创新的两阶段遗传算法与多向RRT*算法相结合，解决了在复杂静态与动态环境约束下的多目标点路径规划这一NP-hard难题。
科学价值：该研究首次公开提出并实现了针对月球南极这类极端动态环境的多向、多约束、任务级路径规划框架。它将离散的“旅行商问题”（探索顺序优化）与连续的“运动规划问题”（轨迹生成）在统一的时间-空间框架下进行协同求解，为地外天体自主导航领域提供了新的方法论和基准。
应用价值： 大幅提升任务规划效率与可靠性：工具可自动生成全局优化的任务序列和精确轨迹，显著减轻了地面操作员繁重且易错的手工规划负担。
确保任务安全与成功率：通过严格、连续的动态约束校验，保证了巡视器在任务全程的能源安全和通信畅通，这是手动规划难以精确做到的。
支持长期自主任务：该工具生成的规划方案可应对地月通信延迟，支持巡视器执行长达数天甚至更长时间的复杂探索任务，提升了单次任务的科学回报。
为未来任务提供核心软件支持：该工具可直接应用于加拿大LEAP巡视器及其他月球、行星探测任务的任务规划系统。
五、 研究亮点 1. 问题新颖性与挑战性：聚焦月球南极这一具有显著动态阴影和通信约束的极端环境，解决了多目标点探索的全局优化问题，填补了该领域公开研究的空白。 2. 算法创新性： * 两阶段遗传算法：将复杂的多目标优化问题分解为“选点-排序”两个阶段，巧妙地将科学收益最大化与路径距离最小化分步处理，提高了搜索效率和效果。 * 多向RRT* (MD-RRT*)：创新性地将经典RRT*算法扩展到多起点、多终点的场景，并通过引入时间维度和延迟机制，有效处理了动态环境约束，是采样-based规划算法在航天领域的一次成功拓展应用。 3. 验证的严谨性：不仅与专业操作员的手动规划结果进行了大量对比，证明了其优越性；还通过小规模实例的穷举搜索，验证了算法解接近全局最优，增强了研究结论的可信度。 4. 工程实用性：研究明确给出了算法参数，并报告了在普通笔记本电脑（Intel i7-1185G7）上的运行情况，表明该工具具有实际部署的潜力。
六、 未来工作与展望 作者在结论部分指出了本研究的局限性及未来改进方向： 1. 能量模型集成：当前模型假设巡视器速度恒定。未来可集成更精细的能量消耗模型，使速度与能耗关联，规划出更节能的路径。 2. 优化指标多元化：除了距离，未来可考虑将路径平滑度、转向能耗、科学观测时间等因素纳入代价函数进行多目标优化。 3. 算法持续更新：随着路径规划和组合优化领域新算法的出现，可以替换或改进现有的遗传算法和MD-RRT*组件。 4. 数据精度提升：规划精度依赖于月球地形、光照等环境数据的精度。未来随着探测数据（如更高分辨率数字高程模型）的丰富，工具的规划能力将进一步提升。
这项研究为未来月球及深空探测的自主任务规划提供了坚实的技术基础和富有前景的解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问