分享自:

基于多层高程地图的四足机器人复杂地形自主安全穿越学习

期刊:IEEE Robotics and Automation LettersDOI:10.1109/LRA.2025.3595814

该文档属于类型a,是一篇关于原始研究的学术论文。

这篇题为《Learning Autonomous and Safe Quadruped Traversal of Complex Terrains Using Multi-layer Elevation Maps》的论文,由Yeke Chen, Ji Ma, Zeren Luo, Yimin Han, Yinzhao Dong, Bowen Xu 和 Peng Lu共同完成,所有作者均来自香港大学机械工程系的自适应机器人控制实验室。该研究发表于2025年10月的《IEEE Robotics and Automation Letters》第10卷第10期。

研究的学术背景聚焦于足式机器人领域,特别是四足机器人的感知与自主导航。在自然界中,双足和四足动物展现出卓越的适应性和灵活性,能穿越各种非结构化复杂地形。作为其人工对应物,足式机器人被寄予厚望,期望能在多样化、杂乱的环境中实现灵活、安全的移动。尽管近年来基于学习的方法已使足式机器人能在多种地形上运动,但在杂乱场景中实现鲁棒、自主的穿越仍是一个重大挑战。这些场景要求机器人能安全避开危险区域、快速穿越必要障碍并灵活调整行为,这对其策略的泛化能力和感知系统的简洁性、通用性及信息丰富度都提出了极高要求。因此,本研究旨在开发一个分层控制框架,以实现四足机器人在杂乱地形中的安全自主穿越。其核心目标是:提出一种新颖、高效且通用的地形表示方法;构建一个分层的导航系统;并通过精心设计的训练方法提升策略的泛化能力和机动性。

研究的工作流程详细且多层递进,主要包含以下核心环节:

首先是核心地形表示方法的开发——多层高程图。针对现有单一高程图无法表示悬垂或受限空间,而深度图像视场有限、冗余信息多且依赖传感器配置,占用体素图计算开销大等问题,研究团队提出了一种新颖的三层高程图表示法。该方法将受限区域简化为地面叠加非相交的悬垂凸多面体,一个垂直线与地形最多相交3次(1+2*1层),因此使用三层存储每个网格单元的最低三个高度值。这一表示法既保留了传统高程图的高效性,又能像深度图像一样表征悬垂障碍。然而,从真实世界传感器数据(如激光雷达点云)直接提取这种理想的三层高程图不可行,因为点云存在遮挡、噪声和数据缺失。为解决此问题,团队在Gazebo仿真环境中独立训练了一个轻量级的、类似U-Net的神经网络——地形压缩器。该压缩器以存在大量缺失和噪声的占用栅格地图作为输入,输出预测完整的三层高程图。为提升压缩器的泛化能力,研究者在生成多样化仿真地形(包括粗糙地面、台阶、缝隙及封闭空间)并采集“占用栅格地图-真实三层高程图”数据对的基础上,应用了随机清除点云、注入高斯和脉冲噪声等数据增强技术。该地形压缩器在训练数据上的平均绝对误差为0.030米,在测试数据上为0.049米,为后续策略学习提供了干净、一致的地形感知输入。

其次是分层控制框架的构建与训练。系统采用一个清晰的层级结构:上层是局部导航策略,负责接收长距离目标点,基于更广阔的感知信息,输出高级的身体速度指令;下层是方向感知的运动策略,负责接收上层的速度指令和精细的三层高程图,输出关节目标位置,实现具体的步态运动。为训练出强大的下层运动策略,研究采用了“专家技能训练-知识蒸馏”的两阶段方法。第一阶段,训练多个在特定地形上高度优化的专家策略,例如专门用于爬行、跨越和攀爬的技能。第二阶段,采用DAgger算法,在一个混合了多种地形的复杂环境中,将这些专家策略的知识蒸馏到一个统一的“通才”运动策略中。在蒸馏过程中,研究引入了关键的地形增强技术:在环境中随机生成高墙、柱子和悬垂块等元素。这些元素仅对学生策略可见,而对教师专家策略不可见。这增加了学生策略观测空间的多样性,迫使它学习更通用的表示,从而提升了面对分布外场景时的鲁棒性。此外,研究还设计了一个“方向感知的线速度跟踪奖励函数”来改进基础训练。传统的速度跟踪奖励可能导致机器人在复杂环境中为追求长期奖励而牺牲方向控制。新的奖励函数在计算线速度跟踪奖励时,乘上了机器人实际朝向与目标方向之间夹角余弦的归一化值,从而鼓励机器人在跟踪速度指令的同时保持正确的航向,显著提升了机动性和避障可靠性。

接着是局部导航策略的训练。导航策略的任务是在杂乱环境中安全、高效地引导机器人到达目标点。其观测输入包括了机器人自身的本体感知信息、一个更大范围的三层高程图以及一个代表附近障碍物信息的向量序列。该障碍物信息通过Transformer编码器处理。导航策略采用非对称的Actor-Critic框架进行训练,其中Critic可以访问机器人线速度等特权信息以加速学习。奖励函数设计相对简洁,包含了鼓励接近目标的进度奖励、到达目标的成功奖励、碰撞惩罚以及一个关键的避障奖励。避障奖励函数的设计尤为精细:它在机器人身体坐标系下定义了一系列采样点(前方更密集),计算每个点的“危险分数”。该分数基于对采样点处三层高程的分析:若第二层与地面层的高度差过大,则标记为不可穿越的危险点;否则,根据最高层和最低层的高度异常值计算危险程度。最终奖励综合考虑了危险点的比例和所有点的危险分数总和,并引入了速度惩罚项,鼓励机器人在危险临近时减速,并主动选择最安全的路径。导航策略在程序化随机生成的、高度复杂的“导航地形”上进行训练,该地形包含被高墙和各类障碍物簇拥的路径段,每次随机生成都能产生截然不同的布局,为评估策略泛化能力提供了严格的测试平台。

为验证所提出方法的每个组件及其整体性能,研究团队在仿真和真实世界两个层面进行了广泛的实验评估。

在仿真实验中,研究者在大型随机生成的杂乱导航地形上,将所提出的完整系统与多个基线方法进行了对比。评估指标包括:每个机器人的平均终止次数(ATC,因摔倒或不安全状态终止)、平均成功次数(ASC,成功到达目标)、平均向目标前进距离(AGD)和成功路径总长(SPS)。基线方法包括:无知识蒸馏的混合策略、端到端训练策略、无地形增强的运动策略、使用深度图像作为输入的运动策略、以及无方向感知速度奖励的策略。结果显示,完整方法在所有指标上均表现最佳,证明了其卓越的泛化能力和机动性。具体而言,知识蒸馏和地形增强有效提升了策略的泛化能力;分层系统在如此复杂的环境中比单一的端到端策略更有效;使用三层高程图的运动策略优于依赖深度图像和循环神经网络隐式估计地形的方法,主要原因是深度图像视场有限,当机器人靠近障碍时,其正下方的关键地形信息会丢失,导致感知困难且在急停、后退等训练中少见的情况下表现不佳。方向感知的线速度跟踪奖励则显著提升了运动策略的机动性,带来了更高的成功率、更长的行进距离和更少的终止次数。

此外,研究还在三种特定技能场景(持续前冲跨越缝隙、走到缝隙边缘停止后再前进、攀爬障碍后后退)中测试了策略的地形表征能力。结果进一步证实,深度图像与RNN结合的方式在需要精确感知和记忆地形(如“停止-再前进”和“攀爬-后退”)的场景中可靠性不足,而三层高程图方法则表现稳定。

在真实世界实验中,研究团队在一个低成本的四足机器人平台上成功部署了整个系统。实验证明,即使在真实环境存在遮挡、噪声和数据分布差异的情况下,地形压缩器也能有效地从激光雷达生成的占用栅格地图中预测出准确、完整的三层高程图,例如成功预测了悬垂块的下表面、填补了被遮挡的地面以及准确表征了缝隙对面的高度。局部导航策略在连续避障场景中表现出色,能够精确引导机器人安全绕过多个障碍物。在整个系统集成测试中,机器人在随机堆叠的杂乱导航地形中,能够自主选择路径,灵活运用爬行、攀爬、跨越等不同技能穿越地形,同时避开危险的高墙,充分展示了运动策略的适应性、导航策略的路径规划与危险规避能力,以及地形压缩器对复杂随机场景的泛化能力。研究还将系统部署到室外环境,机器人成功完成了攀爬高台阶、在长椅下爬行以及在低光照条件下行走于斜坡等任务,证明了系统在室外开阔区域、存在悬垂结构及光照变化条件下的鲁棒性。

本研究的主要结论是,成功开发了一个用于四足机器人的分层控制系统,该系统利用新颖的多层高程图表征,能够在杂乱多样的地形中进行安全导航。通过集成地形增强、知识蒸馏和定制化奖励函数,显著提升了策略的泛化能力和机动性。广泛的仿真实验和在一个低成本机器人上的真实世界部署,共同证明了该系统的鲁棒性和实用性。其科学价值在于提出并验证了一种高效、通用且信息丰富的地形表示方法,以及一套系统性的训练框架来整合感知、导航与运动控制,为解决足式机器人在非结构化环境中的自主穿越问题提供了新的思路和技术路径。应用价值则体现在该系统能够部署于低成本硬件,并在真实、杂乱、动态的室内外环境中实现可靠的自主导航与穿越,为四足机器人的实际应用(如搜救、巡检等)奠定了基础。

本研究的亮点突出体现在以下几个方面:首先,提出了创新的多层高程图表征,它巧妙地在计算效率、信息密度和表征能力(尤其是对悬垂结构)之间取得了平衡,并通过一个可训练的神经网络“地形压缩器”解决了从嘈杂的真实传感器数据到理想表征的转换问题,这是实现仿真到现实迁移的关键。其次,采用了分层且精心设计的训练范式,包括多专家技能的知识蒸馏、仅在学生策略训练中使用的针对性地形增强、以及方向感知的奖励函数设计,这些方法协同作用,显著提升了最终策略在复杂、未知环境中的适应性和鲁棒性。第三,研究验证全面且深入,不仅通过大规模随机仿真进行了详尽的消融实验和对比分析,证明了每个组件的有效性,更在真实的低成本机器人平台上完成了从感知、规划到执行的端到端系统集成与验证,展示了强大的实际应用潜力。

其他有价值的内容还包括:研究详细讨论了感知输入在足式机器人导航中的重要性,并对现有方法(如高程图、深度图像、占用体素)的优缺点进行了清晰梳理,从而凸显了本研究工作的针对性。同时,论文也坦承了当前方法的局限性,例如地形压缩器尚无法直接从现实世界数据中学习(无论是通过人工监督还是自监督方式),这可能会限制其对复杂真实地形特征的完全适应,并指出未来的工作将集中于利用真实世界数据来进一步提升策略和感知模块的泛化能力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com