分享自:

一种基于前向运动学与视觉的腿式机器人地形自适应运动控制方法

期刊:IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)

四足机器人视觉运动控制新方法:基于正向运动学的鲁棒地形感知与穿越

作者与机构 本研究的作者为Jiajun Dong, Yanbin Xu, Chao Ren, Chaoxu Mu, Feng Dong。所有作者均来自天津大学电气与信息工程学院,天津市过程检测与控制重点实验室。通讯作者为徐延彬(Yanbin Xu)。本研究已被2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)接收,计划于2025年10月19日至25日在中国杭州举行的会议上发表。

学术背景 本研究属于机器人学与人工智能的交叉领域,具体聚焦于四足机器人的运动控制。传统四足机器人控制主要依赖基于模型的方法,例如模型预测控制(Model Predictive Control, MPC)、全身控制(Whole Body Control, WBC)和中枢模式发生器(Central Pattern Generators, CPG)。这些方法需要精确的机器人及环境模型,并进行大量计算,在非线性、强耦合的动态环境中存在建模复杂、适应性差的局限。近年来,深度强化学习的兴起为解决复杂连续控制问题提供了新途径,使得机器人能够通过与仿真环境交互自主学习运动策略,展现出比传统方法更强的鲁棒性和适应性。

当前基于强化学习的四足机器人运动控制研究大多聚焦于“盲策略”(blind policies),即仅依赖机器人本体感受器(如惯性测量单元IMU、关节编码器、足部力传感器)的信息,而不使用外部传感器(如相机)。盲策略在应对快速变化的动态扰动(如地面突然打滑)时表现出色,但其根本缺陷在于缺乏“前瞻性”。机器人无法预知前方的地形障碍,必须通过物理接触才能感知,这导致了穿越速度慢、运动不自然等问题,限制了其在复杂非结构化环境中的应用。

为了解决上述问题,研究者开始尝试将视觉信息与盲策略结合。例如,Loquercio等人提出的跨模态监督(Cross-Modal Supervision, CMS)方法,通过师生学习(teacher-student learning)框架将视觉信息融入运动控制。然而,CMS方法存在一个关键挑战:其训练所依赖的地形高度标签并非直接测量值,而是从本体感受信息中估计出的一个低维潜向量,其作为地形估计的可靠性和准确性有待商榷。此外,在仿真中渲染逼真的视觉图像是繁琐且不精确的,这阻碍了纯仿真到现实(sim-to-real)的迁移。

本研究的目的是开发一种新型的视觉运动控制器训练方法,旨在有效融合视觉“前瞻”能力与盲策略的“适应性”,显著提升四足机器人在复杂地形(如楼梯、沙地、草地、雪地、崎岖路面)下的自主穿越能力。其核心创新在于利用正向运动学(Forward Kinematics),直接从真实世界收集的本体感受数据中计算出精确的足部位置,进而获得可靠的地形高度信息,以此作为监督信号来训练视觉感知模块。

详细工作流程 本研究的工作流程主要分为几个关键步骤:仿真训练盲策略、在真实机器人上部署盲策略并收集数据、利用正向运动学处理数据生成监督标签、训练视觉适应模块,以及最终在真实环境中进行集成部署与实验验证。

第一步:盲策略的仿真训练与架构 研究首先在仿真环境中训练一个高性能的盲策略作为基础。该盲策略基于Liu等人改进的RMA(快速运动适应,Rapid Motor Adaptation)框架。具体而言,它在原始RMA的适应模块(Adaptation Module)和基础策略模块(Base Policy)基础上,引入了双向门控循环单元(Bi-directional Gated Recurrent Unit, Bi-GRU)和自注意力(Self-Attention)机制。Bi-GRU擅长处理时间序列数据,能同时考虑过去与未来的上下文信息,从而更全面地理解机器人状态。自注意力机制则可以对来自不同传感器的输入进行重要性加权。这种架构增强了机器人仅凭本体感觉适应动态环境的能力。 基础策略的输入包括:30维的当前状态、12维的上一个动作、8维的外部向量以及地面的实际地形参数。输出为12维的关节目标位置,随后通过一个比例-微分(Proportional-Derivative, PD)控制器转换为12维的关节扭矩指令,驱动机器人。奖励函数的设计鼓励机器人向前行走,同时惩罚侧向移动、能量消耗过大或不稳定的动作(如足部打滑、扭矩突变等),具体奖励项及其权重详见原文Table I。 为了使机器人能够逐步掌握复杂地形行走能力,研究采用了课程学习(Curriculum Learning)策略。训练从简单的平坦粗糙地面开始,逐步引入离散台阶、连续台阶、斜坡、波浪地形等,难度由低到高。同时,为了防止“灾难性遗忘”,训练过程中会定期随机回访已掌握的低难度地形,确保策略技能的全面保持。

第二步:真实世界数据收集 将训练好的盲策略部署在Unitree公司的A1四足机器人上。在机器人头部安装了一台Intel RealSense D435深度相机用于采集视觉数据。研究人员让机器人在多种真实地形(如室内外台阶、不平路面等)上执行行走任务,同时记录其本体感受数据(关节角度、IMU数据、足底接触状态等)和相机拍摄的前向视觉图像。数据收集共进行了四轮,总计28分钟,并且只保留成功的运动轨迹片段。这一过程的核心产物是机器人的运动轨迹数据 (i, x_t, z, q),其中i是视觉图像输入,x_t是本体感受信息(包含4维二值足部接触指示器),z是盲策略适应模块输出的潜向量,q是从机器人IMU计算得到的四元数姿态。

第三步:利用正向运动学计算地形高度标签 这是本研究方法的核心创新环节。传统的视觉方法使用仿真估计或从潜向量推断的地形信息作为监督信号,而本研究提出直接利用正向运动学从真实数据中计算出精确的地形高度。 首先,定义了三个坐标系:世界坐标系{W}、机体坐标系{B}(原点在机器人质心,X轴指向机器人头部)以及与{W}方向一致的机体固定坐标系{O}。利用收集到的关节角度数据q,通过正向运动学公式(公式1)可以计算出每个足端在机体坐标系{B}中的位置p^b。 其次,利用从IMU得到的四元数q(公式2),计算出从机体坐标系{B}到坐标系{O}的旋转矩阵R_o^b(公式3),再将足端位置转换到{O}坐标系下,得到p^o(公式4)。 关键的创新点在于如何利用这些信息生成地形高度标签γ。研究者聚焦于机器人的两个前足。当两个前足同时与地面接触时(由x_t中的足部接触指示器判断),通过比较它们在{O}坐标系下的Z轴坐标z_orz_ol(右前足和左前足的高度),并考虑机器人的俯仰角θ_pitch,可以计算出机器人脚下地形的相对高度差γ(公式5)。具体而言,当俯仰角大于等于0时,γ = z_or - z_ol;当俯仰角小于0时,γ = -(z_or - z_ol)。这个计算出的γ值,代表了机器人足部实际接触的地形起伏,是一个基于物理测量的、高精度的地面真值(ground truth)。 最终,每条运动轨迹数据被重新表示为(i, x_t, z, γ),其中γz将作为监督训练的标签。

第四步:视觉适应模块的训练 训练架构如图2a所示。目标是将步骤三中收集并处理的数据集用于训练一个新的“适应模块”(Adaptation Module)。该模块的输入包括:一段历史时间窗口(如50步)的本体感受状态与动作序列,以及连续三帧前向视觉图像。这些输入被送入独立的编码器:时序观测数据由序列编码器处理以提取动态特征;视觉数据由视觉编码器处理以提取空间特征。 编码后的特征被输入一个Transformer编码器,以进一步建模多模态特征之间的交互关系。最后,通过一个多层感知机(MLP)输出两个估计值:地形高度估计值γ̂和外部潜向量估计值。训练目标是通过回归损失,使(γ̂, ẑ)尽可能接近从数据中计算出的真实标签(γ, z)。 这里有一个重要的时间对齐考量:由于相机是前向的,图像捕获的是机器人前方的地形,而计算出的γ标签对应的是机器人已经走过的、脚下当前的地形。因此,在训练时需要对视觉输入和γ标签进行时间上的对齐(向后偏移),确保模型学习的是根据当前看到的图像预测未来几步后脚下的地形高度,如图1b所示。

第五步:系统部署与实验验证 训练好的视觉适应模块与之前的基础策略(盲策略)集成部署到A1机器人上,架构如图2b所示。在运行时,适应模块以前向图像和本体感受序列为输入,实时预测出地形高度γ̂和潜向量,并以90Hz的频率输出给基础策略。基础策略结合这些信息,输出关节角度指令,最终通过PD控制器转换为关节扭矩,驱动机器人运动。

主要结果 研究者在室内和室外多种复杂地形上进行了广泛的实验,以验证所提方法的有效性,并与多个基线方法进行了对比。基线方法包括:优化的RMA(即本研究中使用的盲策略,无视觉)、CMS方法(使用潜向量作为监督,未使用正向运动学)、以及本方法的消融版本(将Transformer模块替换为MLP,记为Our w/o Transformer)。

室内实验结果:单台阶攀爬能力测试 研究者搭建了高度可调的木质台阶,测试机器人攀爬不同高度(15cm, 20cm, 25cm)单台阶的成功率,每个高度每种方法进行20次试验。结果如图3所示。 - 在15cm台阶:所有方法均表现出色,成功率接近或达到100%。 - 在20cm台阶:本文方法取得了100% 的成功率,显著优于CMS的75% 和优化RMA的70%。 - 在25cm台阶(更具挑战性):本文方法仍保持了60% 的成功率,而CMS方法骤降至10%,优化RMA为30%。消融实验(Our w/o Transformer)的成功率为45%,低于完整版,证明了Transformer模块在特征融合中的重要性。 这些数据清晰地表明,融合了正向运动学提供的精确地形监督和视觉前瞻能力的本文方法,在应对较高障碍时具有显著优势,机器人攀爬能力得到实质性提升。

室外实验结果:复杂地形穿越能力测试 1. 连续台阶测试:测试机器人在不同长度(1到4级)连续台阶上的成功率。结果如图5a所示。随着台阶数量增加,所有方法的成功率均呈下降趋势,但本文方法的下降幅度最小,始终保持着最高的成功率。在四级连续台阶上,本文方法的表现依然优于其他所有基线,证明了其处理复杂连续地形的高鲁棒性和精确性。 2. 多样化自然地形测试:如图5b所示,机器人在沙地、草地、雪地以及崎岖不平等复杂自然路面进行了测试。本文方法在这些地形上均取得了100% 的穿越成功率,展现出对不同地面摩擦系数、可变形表面和复杂拓扑结构的强大适应能力。 3. 运动特性分析:图6对比了本文方法与盲策略在爬楼梯时前腿的摆动幅度。盲策略的摆动腿在遇到台阶时容易被“卡住”在台阶前,直到发生碰撞后才被动调整。而本文的视觉方法,能够提前“看到”台阶,从而主动、平滑地抬起摆动腿,实现了更自然、更稳定的爬升动作。这直观地证明了视觉前瞻信息对运动规划和执行的关键改善作用。

结论与意义 本研究提出并验证了一种用于四足机器人的新型视觉运动控制器训练方法。其核心贡献在于创造性地利用正向运动学,从机器人真实行走轨迹的本体数据中直接计算出精确的地形高度信息,以此作为高质量的监督信号来训练视觉感知网络。这种方法巧妙地绕过了在仿真中渲染逼真图像的难题,也避免了使用抽象潜向量作为地形估计的不确定性。 该方法成功地将盲策略的快速适应能力与视觉系统的前瞻感知能力相结合。实验结果表明,仅需不到30分钟的真实世界数据,训练出的模型就能使机器人稳定、高效地穿越包括楼梯、沙地、草地、雪地和不平路面在内的多种极具挑战性的地形,在多项性能测试中超越了现有的先进方法(如优化的RMA和CMS)。 本研究的科学价值在于为“仿真-现实”转移(sim-to-real)和机器人多模态感知与控制提供了一个高效、可靠的框架。它证明了从真实物理交互中提取精确监督信号的可行性,为机器人学习复杂技能开辟了一条新路径。其应用价值巨大,有望推动四足机器人在野外救援、星球探测、仓储物流等非结构化环境中的实际部署。

研究亮点 1. 创新性的监督信号生成:首次提出并实现了利用正向运动学从真实机器人本体数据中直接计算地形高度,作为视觉网络训练的精确监督标签。这是方法上最核心的创新点,解决了真实视觉数据缺乏可靠地面真值的难题。 2. 高效的真实世界训练:整个训练流程仅需少量(<30分钟)的真实世界交互数据,极大地降低了数据收集成本和训练复杂度,提升了方法的实用性和可扩展性。 3. 显著的性能提升:在室内外多种复杂地形的定量与定性实验中,所提方法均展现出比现有先进方法更优的鲁棒性、成功率和运动流畅性,特别是在高台阶和连续障碍地形上优势明显。 4. 有效的模块化架构:采用的基于Transformer的多模态编码器,有效融合了时序本体感觉与空间视觉信息,其重要性通过消融实验得到了验证。 5. 解决了盲策略的“短视”问题:通过对比实验(图6)生动展示了视觉信息的引入如何使机器人从“反应式”的碰撞后调整,转变为“预判式”的主动步态调整,更接近生物的自然运动模式。

其他有价值的内容 文中提到了方法的局限性与未来展望:虽然真实世界数据收集有利于最终部署,但这个过程相对低效。未来的改进方向可能探索仿真与真实世界训练相结合的方法,例如在仿真训练初期使用地形扫描点云替代视觉输入,然后再用少量真实数据进行微调。此外,研究在Unitree A1机器人平台上的成功部署,也证明了该方法在实际机器人系统中的可行性与实时性(适应模块运行频率达90Hz)。最后,研究对相关工作的梳理(基于模型的控制、腿式机器人运动学习、基于视觉的控制方法)为读者清晰地定位了本工作的学术背景和贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com