优化与学习在崎岖地形腿式机器人运动中的应用

分享自：
优化与学习在崎岖地形腿式机器人运动中的应用

期刊:The International Journal of Robotics ResearchDOI:10.1177/0278364910392608
针对崎岖地形腿式机器人的优化与学习研究
一、 研究概况与作者信息
本研究由来自多所顶尖研究机构的团队合作完成。主要作者包括：Matt Zucker（斯沃斯莫尔学院工程学院）、Nathan Ratliff（英特尔研究院匹兹堡）、Martin Stolle（Google瑞士）、Joel Chestnutt（日本产业技术综合研究所）、J. Andrew (Drew) Bagnell、Christopher G. Atkeson（两位均来自卡内基梅隆大学机器人研究所）、James Kuffner（Google美国）。该研究成果以论文“Optimization and learning for rough terrain legged locomotion”的形式，于2011年发表在国际知名期刊 The International Journal of Robotics Research 第30卷第2期（页175–191）。
二、 研究背景与目标
本研究属于机器人学，特别是腿式机器人运动规划与控制领域。尽管腿式机器人研究历史悠久，但当时能在外界非结构化崎岖地形上实现熟练、自主穿行的机器人仍局限于实验室环境。部分户外机器人依赖机械稳定性或精心调校的反馈控制来克服中小型障碍，但缺乏高层级的决策规划能力。因此，研究团队的核心目标是开发一套完整的算法框架，使机器人不仅能规划全局路径，还能规划和执行实现该路径所需的具体动作序列，以安全、高效地穿越复杂地形。
该研究是美国国防高级研究计划局（DARPA）学习运动（Learning Locomotion）项目的一部分。在该项目中，各参与团队为波士顿动力公司（Boston Dynamics）制造的LittleDog四足机器人开发软件，并在标准化的崎岖地形上进行性能评估，目标是在规定速度下穿越障碍。本研究团队的方法论“彻底植根于优化”，旨在构建一个基于优化和机器学习的分层规划与控制系统。
三、 详细研究方法与工作流程
本研究并非单一实验，而是提出并实现了一套复杂的软件系统框架。其核心是一个由多个快速、随时（anytime）算法组成的层次化规划与控制管道。整个系统可分解为以下几个关键步骤和模块：
1. 系统总览与层次结构： 系统将复杂的全身运动优化问题分解为一系列较小的优化任务，形成一个分层流水线（如图2所示）。高层抽象规划器与低层具体执行器之间通过交换计划、代价估计和“证明书（certificates）”进行协调，以确保高层计划的可行性。这种设计避免了过早做出不可撤销的硬性决策，而是通过连续的代价函数评估替代方案，并允许将中间结果“提升”到完整问题空间，减少回溯需求。
2. 底层优化基础：运动学与避障： 系统依赖两个核心的底层优化例程，用于在保持足端位置不变的前提下，调整机器人身体位姿和关节角度，以分别满足运动学可达性和障碍物避碰需求。这两个例程本质上是在由足端位置约束构成的流形上进行梯度下降。 * 运动学可达性优化：当身体位姿导致足端位置无法通过逆运动学（Inverse Kinematics, IK）达成时，计算虚拟力将身体拉向足端可达到的最佳位置方向。 * 障碍物避碰优化：利用预计算的有符号距离场（Signed Distance Field, SDF） 高效查询机器人与地形的最小距离及其梯度。当检测到碰撞（如小腿与岩石）时，通过推导的雅可比矩阵计算如何移动和旋转身体，以驱动碰撞点沿地形梯度方向移动，从而解决碰撞问题。SDF的构建涉及对地形三角网格进行体素化、计算欧氏距离变换（EDT）并添加符号信息，能在常数时间内进行距离查询和梯度计算。
3. 高层足步规划： 为了克服高维空间搜索的“维数灾难”，系统采用足步规划（Footstep Planning）策略。它在可能的足落点（状态）离散空间中进行搜索（使用A*及其变种），并结合一个负责执行足步序列的全身运动控制器。 * 代价与启发式函数： * 地形代价：通过一种简单的逆最优控制（Inverse Optimal Control, IOC） 技术学习得到。系统向专家展示成对的地形样本，专家表达偏好。通过解决支持向量排序（Support Vector Ranking）问题，学习一个将地形特征（如局部二次回归系数、斜率、曲率）映射为代价的效用函数。这避免了手动设计代价函数的繁琐和误差。 * 姿态代价与证明书（Certificate） ：为评估一组足落点的整体质量，系统会搜索一个“姿态证明书”——一个满足所有足端位置、重心位于支撑多边形内、且与地形无碰撞（除足端外）的全身18自由度配置。如果找不到有效证明书或证明书显示机器人接近运动学奇异点或碰撞，则姿态代价增加或禁止该动作。这确保了足步规划器与底层执行器之间的一致性。 * 启发式函数：采用基于Dubins车辆模型的启发式，而非简单的欧氏距离。该模型将机器人近似为一个具有最小转弯半径、只能前行的车辆，从而更准确地估计到达目标所需的代价，特别是在需要转向时，显著提高了搜索效率。 * 实时规划：采用随时A*（ARA*） 算法。该算法通过迭代降低启发函数的膨胀系数，在有限时间内（如执行错误后的2秒内）快速生成可行计划，并随时间推移不断优化计划质量，最终生成高质量路径。
4. 足步轨迹优化： 一旦足步规划器生成了足步序列和对应的姿态证明书，系统会为每一步生成一条初始全身轨迹，并使用协方差哈密顿优化与运动规划（CHOMP） 算法进行优化。 * 初始轨迹生成：身体轨迹由零力矩点（Zero Moment Point, ZMP）预览控制器生成，以确保动态稳定性。摆动腿轨迹由连接起落点的样条曲线生成。支撑腿轨迹通过逆运动学确定。 * CHOMP优化：CHOMP是一种基于梯度的轨迹优化算法，旨在最小化由平滑性项和障碍物势能项组成的代价函数。其关键几何见解是将机器人轨迹视为一组受运动学约束的工作空间路径。通过使用协变梯度（自然梯度） 进行更新，CHOMP能快速收敛，并使梯度更新的效果沿整个轨迹平滑传播，而不仅仅是重新分布路径上的点。在优化单个足步轨迹时，采用坐标下降法交替优化身体轨迹和摆动腿关节角度，同时考虑避碰、运动学可达性和静态稳定性梯度。
5. 执行与底层控制： 执行模块以先进先出（FIFO）缓冲方式运行优化后的轨迹。 * 误差校正：除了机器人自带的关节比例-微分（PD）控制和力控制外，系统在每条支撑腿上运行一个慢速积分器。该积分器通过比较期望的和观测到的身体位姿，调整腿部关节命令，以抵消足滑和齿轮间隙造成的身体位姿误差，从而确保身体轨迹跟踪和足端准确落足。 * 反射与重规划：当执行误差超过阈值时，会触发反射模块尝试恢复机器人平衡并将所有脚稳固地放在地面上。稳定后，足步规划器重新启动，实现快速恢复和继续行走。
6. 专用行为库： 对于特定几何特征的地形（如高台阶、高大障碍），系统可以切换到预编程或演示学习的“专用行为”模式。这些行为是复杂的全身动作序列（如用前肘拖拽身体上台阶）。研究团队还探索了将此类行为集成到通用规划中的方法：首先将记录的行为“迁移”到新地形的相似区域并进行适应性调整；然后构建一个包含起始、目标和所有迁移后行为节点的拓扑图，使用足步规划器连接节点之间的间隙，并通过最佳优先搜索找到由规划步和记录步组合而成的最优行为序列。
四、 主要结果与贡献
本研究成功开发并验证了一套完整的、基于优化和学习的四足机器人崎岖地形运动软件框架。该系统在DARPA学习运动项目的多个阶段和多种地形（大岩石、圆石、斜坡、圆木、沟壑等）上成功指导LittleDog机器人实现了稳健行走。
分层优化框架的有效性：提出的层次化规划与控制架构在实践中被证明是高效的。高层足步规划器与底层轨迹优化器、执行控制器通过代价函数和“证明书”松散耦合，能够在保证安全性的前提下实现快速在线重规划。
学习技术的成功应用： 基于排名的偏好学习有效替代了手工设计地形代价函数，减轻了工程师负担，并得到了符合专家直觉的代价图。
逆最优控制（IOC）技术被证明适用于机器人运动学中的代价函数学习。
算法与模块的创新性与性能： 足步规划器：结合Dubins启发式、基于学习的代价和姿态证明书，实现了快速、可靠的路径规划。ARA*算法使其具备出色的实时响应和重规划能力。
CHOMP轨迹优化器：显著减少了运动轨迹中的碰撞风险。分析表明，在项目第三阶段地形上，CHOMP将严重碰撞的步态比例从未优化的4.3%降低至1%。其自然梯度更新和基于SDF的梯度计算保证了优化效率。
“证明书”概念：作为一种验证机制，有效弥合了抽象规划与具体执行之间的鸿沟，防止了规划器生成无法执行的足步。
专用行为库与规划集成：展示了将复杂的演示行为泛化并纳入统一规划框架的潜力，拓展了系统的能力边界。
项目最终成果：在项目第三阶段的最终测试中，该研究团队的系统成功穿越了七种地形中的五种，达到了项目要求的速度指标（超过7.2 cm/s），平均速度达到7.8 cm/s。这证明了基于优化的规划方法在复杂地形 locomotion 任务中的强大竞争力。研究团队指出，最终表现最佳的团队往往是那些结合了规划与底层动态控制的团队，显示了二者协同的重要性。
五、 研究结论与价值
本研究的核心结论是：一个“彻底植根于优化”、并辅以机器学习技术的分层规划与控制框架，能够有效解决四足机器人在复杂崎岖地形上的自主运动问题。该框架将全局导航、足步放置、全身轨迹优化和底层反馈控制融为一体，通过引入学习来减轻工程负担，并通过实时重规划和反射机制来保证鲁棒性。
其科学价值在于为腿式机器人运动规划提供了一套系统性的方法论，展示了优化理论、机器学习算法（特别是偏好学习和IOC）与机器人具体问题深度融合的可行路径。研究中发展的诸多技术，如基于排名的代价学习、CHOMP轨迹优化、“证明书”验证机制等，都具有广泛的适用性，可推广至其他机器人平台（如机械臂操作、双足步行）和更一般的机器人运动规划问题。
六、 研究亮点
方法论创新：明确提出并实践了“将复杂机器人问题视为优化问题层次结构”的范式，是系统性解决高维、非线性机器人控制问题的典范。
关键技术突破： 学习替代设计：成功应用简单的偏好学习来获得复杂的地形代价函数，是“学习减轻工程负担”理念的成功案例。
CHOMP算法：将协变梯度与SDF结合，实现了高效、光滑的轨迹优化与避碰，是轨迹优化领域的重要贡献。
“证明书”机制：作为一种新颖的层次规划验证工具，增强了高层规划的可执行性保证。
实时重规划架构：整合ARA*、在线优化和反射控制，使系统能够从执行错误中快速恢复，体现了高度的鲁棒性。
全面集成与验证：所有算法并非孤立存在，而是被集成到一个完整的、实时运行的软件系统中，并在真实的机器人硬件和多样化的标准测试地形上进行了全面验证，证明了其整体有效性。
七、 其他有价值的内容
研究团队在文中展望了未来工作方向，指出了当前系统的局限性（如依赖精确的先验地图）和可能的改进空间。他们特别强调，当前系统主要侧重于模仿学习，缺乏在线自适应和泛化学习能力。未来的目标是开发能够从经验中学习、避免重复错误、并利用过去成功策略的系统，例如探索将失败信息反馈给规划器的机器学习技术，或使用随机策略梯度方法创建可学习特定领域特征的随机规划器。这些思考为该领域的后续研究提供了清晰的路线图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问