这篇文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
香港大学机械工程系自适应机器人控制实验室(ARCLab)的Erdong Xiao、Yinzhao Dong、Ji Ma和Peng Lu(通讯作者)团队在《Advanced Robotics Research》期刊(2025年7月15日接受)发表了一项关于四足机器人多步态与双足运动模仿学习的研究,题为《Stable Imitation of Multigait and Bipedal Motions for Quadrupedal Robots over Uneven Terrains》。该研究通过结合长短期记忆(LSTM)数据正则化模块、基于模型的稳定性奖励函数和插值式数据集增强技术,显著提升了四足机器人在复杂地形下的运动模仿稳定性与泛化能力。
学术背景
四足机器人的运动控制在动态环境中面临稳定性、泛化性和现实适应性等挑战。传统方法(如模型预测控制MPC或强化学习RL)需复杂动力学推导或长训练周期,而模仿学习(Imitation Learning)能通过参考运动数据快速收敛,但现有方法对扰动和地形的适应性不足。本研究旨在开发一种新型框架,使机器人能稳定模仿多种步态(如小跑、踱步、跳跃)甚至双足行走,并适应不平整地形。
研究流程与方法
研究分为以下核心步骤:
参考运动数据集构建与正则化模块
- 数据采集:在PyBullet仿真器中通过MPC控制器生成Aliengo机器人的运动序列,记录身体速度、关节位置、足端位置等12维数据(时间步长0.02秒)。
- LSTM运动重定向网络:设计基于LSTM的模块,将不同形态机器人的运动数据统一映射为目标机器人(如Unitree Go1)的关节空间,同时去噪。损失函数结合足端位置L2误差和关节位置误差(公式2)。
- 数据增强:通过插值法(类似视频变速播放)生成不同步态频率的扩展数据集,支持连续速度调整(公式8-9)。
模仿学习策略训练
- POMDP建模:将问题定义为部分可观测马尔可夫决策过程(POMDP),状态空间包括可观测信息(如IMU数据、关节状态)和特权信息(如高度图、摩擦系数)。
- 奖励函数设计:除运动跟踪奖励外,引入基于可变高度倒立摆(VHIP)模型的稳定性奖励(公式11-12),惩罚质心(COM)与压力中心(COP)的偏离角度及角加速度。
- 域随机化:在训练中随机化物理参数(如关节刚度、摩擦系数),以增强策略的鲁棒性(表2)。
实验验证
- 仿真测试:在Isaac Gym中使用2048个并行Go1机器人训练策略,对比基线方法(如Peng et al.的优化重定向法)。结果显示,在5cm/25cm不平整地形上,本方法的累积位置跟踪误差显著降低(图4)。
- 硬件部署:在Unitree Go1-NX和Lite-3机器人上验证多步态(踱步、跳跃、双足行走)的稳定性(图7-12)。例如,双足行走时,机器人通过调整髋关节牺牲部分跟踪精度以维持稳定性(图12c)。
主要结果
- 运动跟踪精度:在0.1m不平地形上,LSTM重定向网络的速度跟踪曲线比基线方法(如UNet、ImitationNet)更平滑,噪声鲁棒性更强(图5)。
- 稳定性提升:引入VHIP奖励后,机器人在25cm高差地形上的重置次数减少50%(图10),且能通过调整COM-COP向量跨越障碍(图9)。
- 泛化能力:框架支持跨平台部署(如从Aliengo到Go1/Lite-3),并适应不同步态频率(图8)。
结论与价值
本研究通过集成数据正则化、模型奖励和增强技术,首次实现了四足机器人对多步态和双足运动的稳定模仿,解决了传统方法在动态环境中的局限性。其科学价值在于:
- 方法论创新:LSTM单阶段重定向与插值增强提升了数据利用率;VHIP奖励将简化动力学模型融入模仿学习。
- 应用潜力:为搜救、危险环境勘探等任务提供了更灵活的机器人控制方案。
研究亮点
- 多源数据兼容性:支持来自不同机器人、仿真器或控制器的输入数据。
- 高动态运动支持:首次实现四足机器人对含飞行阶段的动作(如跳跃、双足行走)的稳定模仿。
- 开源贡献:代码与数据可应要求公开,促进后续研究。
其他亮点
- 计算效率:训练仅需2小时(NVIDIA RTX 3060),优于传统RL方法。
- 硬件普适性:在Lite-3上的成功验证表明框架对形态差异的适应性(图11)。
此报告完整覆盖了研究的背景、方法、结果与意义,符合学术传播的严谨性要求。