应对挑战性地形的四足机器人运动的学习、规划与控制

分享自：
应对挑战性地形的四足机器人运动的学习、规划与控制

期刊:The International Journal of Robotics ResearchDOI:10.1177/0278364910388677
基于学习的四足机器人崎岖地形高速运动控制架构研究报告
一、 研究作者与发表信息
本项研究的核心作者为Mrinal Kalakrishnan， Jonas Buchli， Peter Pastor， Michael Mistry以及Stefan Schaal。其中，Mrinal Kalakrishnan为通讯作者，所属机构为南加州大学的计算学习与运动控制实验室（Computational Learning and Motor Control Lab， University of Southern California）。该研究成果以论文形式发表于《The International Journal of Robotics Research》第30卷第2期，出版年份为2011年，具体页次为236至258页。论文的DOI编号为10.1177/0278364910388677。
二、 学术背景与研究目的
本研究隶属于机器人学领域，具体聚焦于四足机器人的腿式运动规划与控制。研究团队旨在解决当时一个关键的挑战：让四足机器人能够高速、鲁棒地穿越复杂的非结构化崎岖地形。以往的研究中，大多数腿式机器人只能在平坦或轻微不平的地形上行走，而在这种地形上，轮式系统通常更具优势。此外，当时的控制器很难处理与机器人腿长相仿的大型障碍物，并且常常需要在运动精度与应对未感知扰动的鲁棒性之间做出权衡。
本研究的背景是美国国防部高级研究计划局（DARPA）的“学习运动”（Learning Locomotion）项目。该项目旨在推动腿式机器人在速度和鲁棒性方面的极限，特别针对极端崎岖地形。项目为六个参赛团队提供了完全相同的硬件（LittleDog机器人）和测试环境，使得不同控制策略的性能可以直接比较。这为研究团队开发一个具有普适性和高性能的控制器提供了明确的测试标准和竞争环境。
本研究的主要目标是开发一套完整的控制架构，通过整合前沿的学习、规划、优化和控制技术，使四足机器人能够在包含岩石、圆木、台阶、障碍物和沟壑等多种困难地形上实现稳定、快速的运动。其核心诉求是超越当时已发表结果的运动性能，并证明控制器对全新、未见地形的泛化能力。
三、 详细工作流程
研究团队提出了一个层次化的控制架构，将复杂的运动生成问题分解为多个子系统，并以在线方式（即机器人在行走过程中）进行规划和重新规划，从而实现对执行误差和滑移的快速恢复。主要流程可分为离线学习、在线预处理和在线实时控制三大阶段，具体步骤如下：
1. 离线学习：基于地形模板的落脚点选择学习 * 研究目标与对象： 落脚点选择是崎岖地形运动的关键。研究旨在学习一个函数，用于评估和排序所有可达落脚点的优劣，而非手动设计复杂的启发式规则。研究“对象”是从各种不同难度地形模块上采集的专家示范数据。 * 方法与处理： 专家通过一个交互式界面，观看机器人在不同地形上的行走日志，并在认为机器人选择了次优落脚点的地方，手动标注出他们认为的最优落脚点。每个被标注的落脚点（包括专家选的和机器人原计划的）都用于数据提取。 * 核心算法与创新（地形模板学习）： * 模板提取： 从每个专家示范的落脚点周围，提取三种空间尺度的离散化高度地图，称为“地形模板”（Terrain Template）。小尺度模板（24x24 mm）编码足部接触面的摩擦特性；中尺度模板（54x54 mm）编码与障碍物和悬崖边缘的距离（即碰撞风险）；大尺度模板（144x54 mm）编码小腿和膝盖的碰撞风险。 * 特征构建与学习： 从大量示范中提取的模板构成了一个庞大的特征库。对于一个候选落脚点，其特征向量中的每个值代表该点与库中某个模板的相似度（使用径向基函数核计算）。这摒弃了手工设计坡度、曲率等特征的做法。 * 分类器学习排序函数： 专家选择最优落脚点隐含了一个排序关系。研究将此排序学习问题转化为一个线性二分类问题：将最优落脚点与所有其他候选点的特征向量之差作为正类样本，输入给分类器。他们采用了 L1-正则化逻辑回归（L1-regularized Logistic Regression） 分类器。L1正则化的作用在于自动进行特征选择，最终学到的权重向量中，大量模板特征的权重为零，从而得到一个稀疏且泛化能力强的模型。该模型输出的权重向量即为落脚点奖励函数的系数。
2. 在线预处理（每次试验前） * 地形奖励图生成： 在机器人开始行走前，利用学习到的落脚点奖励函数，对已知的整个地形（通过激光扫描和运动捕捉系统获知）预先计算一个奖励值网格图。 * 近似身体路径规划： 在奖励图的基础上，使用Dijkstra算法规划一条从起点到终点的、粗略的机器人身体质心（Center of Gravity， CoG）路径。这条路径用于在后续的实时脚步规划中引导机器人走向落脚点质量更高的区域。
3. 在线实时控制（行走过程中） 在线控制架构是一个循环执行的管道，主要包括以下步骤： * 脚步规划器： 根据机器人当前状态和地形奖励图，为接下来的四步（遵循左后-左前-右后-右前的固定摆动顺序）选择最优落脚点。通常采用贪心搜索，但对于大沟壑等运动学上具有挑战性的地形，会使用Anytime Repairing A* (ARA*) 算法进行全局优化规划。 * 姿态求解器： 给定一组规划好的落脚点，优化机器人身体的6维姿态（高度、滚转、俯仰、偏航），以最大化运动学可达性并避免与地形碰撞。它包含一个快速的近似求解器（用于评估大量候选落脚点）和一个精确的梯度优化器（用于最终选定的落脚点序列）。 * 身体轨迹生成器： 这是本研究的另一项核心创新。基于零力矩点（Zero-Moment Point， ZMP）稳定性准则来生成光滑的身体质心轨迹。 * 方法： 将质心轨迹表示为一系列五阶样条段，并将轨迹生成表述为一个凸二次规划（Convex Quadratic Program， QP）优化问题。目标函数是最小化轨迹的加速度平方和（保证光滑性），约束条件是在所有时间点上，计算出的ZMP必须位于当前支撑足形成的凸多边形（支撑多边形）内。 * 优势： 与传统的基于静态CoG的方法相比，ZMP是一个动态稳定性准则，考虑了加速度的影响。该优化器能自动找到在两个不相交的支撑三角形之间平滑移动CoG的轨迹，同时ZMP始终保持在支撑多边形内，从而可以极大地缩短甚至消除四足支撑阶段，显著提高运动速度。 * 足端轨迹规划器： 在稳定的身体轨迹和规划的落脚点基础上，为摆动腿生成无碰撞的关节空间轨迹。首先基于地形生成一条初始轨迹，然后使用一个名为CHOMP（Covariant Hamiltonian Optimization for Motion Planning）的轨迹优化器进行优化，以消除膝盖或小腿的潜在碰撞，并确保轨迹平滑（最小化加加速度）。 * 执行与控制： 这是实现鲁棒性的关键环节。研究团队采用了五层控制器构成的组合： 1. 关节PD控制（400 Hz）： 运行在机器人本体上，接收期望关节角度和速度。 2. 浮动基逆动力学控制（100 Hz）： 这是本研究的一项关键控制创新。研究团队开发了一种新颖的、不依赖于接触力测量的浮动基逆动力学算法。该算法通过将系统动力学投影到约束的零空间来计算所需的关节力矩，并作为前馈转矩发送给机器人。这使得机器人可以使用较低的PD增益，从而对扰动更加柔顺。 3. 力P控制（400 Hz）： 结合上述逆动力学算法预测的接触力，与足部力传感器反馈进行比较，实现主动力控制。当遇到未感知的障碍物时，该控制器能防止机器人过度下压，提供了主动柔顺性。 4. 身体误差积分控制（100 Hz）： 监控机器人实际身体位姿，使用积分控制器进行追踪和补偿，以应对足部滑移。 5. 足端误差积分控制（100 Hz）： 监控摆动足的实际位置，使用积分控制器提高落脚点精度。 * 动态运动应对极端地形： 对于接近或超过机器人腿长极限的极高台阶或沟壑，设计了特定的动态动作，如“腾跃”和“滑行”动作，以跨越这些障碍。
四、 主要研究结果
1. 落脚点学习结果： 团队收集了约100个专家示范，并在一个未用于训练的测试地形模块上进行了21次运行测试，比较了三种特征集的学习效果。 * 仅使用传统地形特征： 成功率仅为47.6%，平均滑移距离较大（24.8 ± 5.9 mm）。 * 仅使用地形模板： 成功率提升至76.2%，平均滑移距离降低（20.2 ± 5.1 mm）。 * 结合地形模板与地形特征： 成功率达到了100%，平均滑移距离进一步降至17.3 ± 3.3 mm。这证明了结合学习到的非线性的模板特征与手工设计的线性启发式特征，能够获得最优的性能和最强的泛化能力。论文中的表1和表2详细展示了模板选择数量和不同方法的成功率与滑移数据。
2. 逆动力学控制鲁棒性测试结果： 在仿真和真实机器人上测试了不同控制器（高/中/低PD增益，结合/不结合逆动力学和力控制）应对未感知障碍物的能力。 * 仿真测试： 设置了一系列未感知的、高度从1cm到7cm的障碍。结果显示，仅使用高增益PD控制时，机器人只能通过很低的障碍。当PD增益降至低增益（原增益的1/6） 并同时结合逆动力学和力控制时，机器人能成功通过最高7cm（约腿长的50%）的未感知障碍，表现最为鲁棒。 * 真实机器人测试： 结果与仿真高度一致。低增益的逆动力学+力控制器在应对真实环境中的未感知木板和“跷跷板”等扰动时，表现出卓越的鲁棒性，而高增益PD控制器则容易失败。表3详细对比了不同控制器在仿真和实机上的通过率。
3. ZMP轨迹优化与整体性能评估结果： * 轨迹跟踪： 在平坦地面上，结合逆动力学的控制器即使使用中低PD增益，其CoG和ZMP的跟踪精度也与高增益PD控制器相当甚至更好（见表4），这验证了逆动力学前馈的有效性。 * 整体地形穿越性能： 在实验室中，该控制器成功穿越了岩石、圆木、台阶、斜坡、沟壑等多种地形，速度范围在7.2至13 cm/s之间（0.24至0.43倍体长每秒）。特别地，它能处理高达10cm（腿长的76%）的岩石障碍，并能通过动态动作跨越12cm的台阶和17cm的沟壑。 * 外部独立测试（最终验证）： 在DARPA学习运动项目第三阶段的最终测试中，研究团队的软件被提交给独立的测试团队，在从未见过的七类新地形上进行测试。测试要求最低速度为7.2 cm/s。结果显示（表5），控制器在所有七类地形上都至少成功完成了两次（共三次）穿越，并且有六类地形的平均速度达到或超过了指标速度。论文指出，该团队是唯一一个在至少六类地形上达到速度指标的团队。这强有力地证明了该控制器卓越的泛化能力和鲁棒性。
这些结果之间存在清晰的逻辑递进关系：学习到的优质落脚点规划（结果1）为上层轨迹生成提供了可行的基础；ZMP优化的光滑轨迹（结果3）与精确的足端轨迹规划相结合，构成了良好的“计划”；而低增益的逆动力学与力控制（结果2）则提供了出色的“执行”能力，能够容忍计划的微小偏差和未感知的扰动。三者缺一不可，共同促成了最终在多种极端地形上的高速、稳定运动表现。
五、 研究结论与价值
本研究成功地开发并验证了一套用于四足机器人崎岖地形高速运动的完整控制架构。其核心结论是：通过将问题层次化分解，并协同应用从专家示范中学习落脚点选择、基于ZMP优化身体轨迹、以及利用浮动基逆动力学与力控制实现主动柔顺这三种关键技术，可以构建出一个性能远超先前方法、且具有强大泛化能力的控制器。
科学价值： 1. 提出并验证了“地形模板”作为一种从数据中学习复杂、非线性落脚点评估函数的有效特征表示方法。 2. 创新地将ZMP稳定性约束转化为一个凸优化问题，用于在线生成高速、平滑的身体轨迹，突破了传统静态稳定性准则对速度的限制。 3. 发展并实践了一种不依赖接触力测量的实用化浮动基逆动力学控制方法，显著提升了腿式机器人系统的跟踪性能和对未知扰动的鲁棒性。 4. 展示了在复杂机器人系统中，如何有机整合机器学习、运动规划与先进控制理论，为解决现实世界的机器人运动问题提供了一个典范。
应用价值： 该研究直接提升了腿式机器人在非结构化环境（如灾难救援、野外勘探、星球探测）中的实际应用潜力。所提出的架构和算法模块具有通用性，可推广至其他足式机器人平台。其在DARPA项目竞赛中的优异表现，也证明了该技术路线的先进性和工程可行性。
六、 研究亮点
高度整合的层次化架构： 研究并非提出单一算法，而是构建了一个包含感知、学习、规划、控制全链条的完整系统，并深入解决了各子系统间的接口与协同问题。
数据驱动与模型驱动的结合： 在高层决策（落脚点选择）上采用数据驱动的学习方法（向专家学习），在底层控制上采用基于模型的优化和控制方法（逆动力学、ZMP），充分发挥了各自优势。
在线重规划与鲁棒执行的闭环： 整个系统以后退时域的方式在线运行，能够快速从滑移、碰撞等意外中恢复，这是实现高速下高鲁棒性的关键。
严格的泛化能力验证： 不仅在本土地形测试，更重要的是通过了独立第三方在未知地形上的严格测试，为研究结论提供了最强有力的证据。
算法创新与实际效果的统一： 提出的地形模板学习、ZMP凸优化、浮动基逆动力学等方法，均非停留在理论层面，都在LittleDog机器人上实现了实时运行，并带来了可量化、可比较的性能提升。
七、 其他有价值内容
论文还简要介绍了用于处理运动捕捉系统噪声的贝叶斯异常值检测算法，以及为应对极端地形（如超过运动学极限的障碍）而专门设计的动态“腾跃”动作序列。这些细节进一步体现了该研究工作的系统性和工程完备性。整个研究是在DARPA学习运动项目的框架下完成的，其标准化测试平台和竞争环境为客观评估不同技术路线提供了宝贵条件，本研究无疑是该项目中最成功的成果之一。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问