本文档属于类型a:报告单篇原创研究的学术论文。以下是针对该研究的详细学术报告:
本研究由Shaohang Xu(第一作者,同时隶属于华中科技大学人工智能与自动化学院及香港城市大学数据科学学院)、Lijun Zhu(华中科技大学)和Chin Pang Ho(香港城市大学)共同完成。论文发表于2022年IEEE国际机器人与自动化会议(ICRA),会议于2022年5月23-27日在美国费城举行。
研究领域与动机
该研究属于四足机器人运动控制领域,聚焦多模态步态(multi-modal gaits)的高效切换与鲁棒控制问题。自然界四足动物能根据速度和环境自适应切换步态以降低能耗,但机器人实现这一能力仍面临两大挑战:
1. 高层决策:如何动态选择最优步态;
2. 底层控制:如何在复杂环境中稳定执行目标步态。
现有方法中,基于模型预测控制(MPC, Model Predictive Control)的控制器虽能实现单步态鲁棒运动,但无法自动切换步态且对模型误差敏感;而基于强化学习(RL, Reinforcement Learning)的控制器虽无需精确模型,但多数仅支持单一固定步态,限制了能量效率与敏捷性。
研究目标
提出一种分层控制框架,结合RL与MPC的优势,实现:
- 通过RL策略自动选择能量最优步态;
- 通过自适应MPC实现扰动环境下的鲁棒控制;
- 消除仿真到现实(sim-to-real)的迁移调参需求。
框架分为高层控制器(RL决策)与低层控制器(MPC执行):
- 高层控制器:
- 步态选择策略(Gait Selection Policy):输入为速度指令与本体感知测量,输出为四种步态(walking, slow trotting, fast trotting, flying trotting)的四维独热编码。
- 模型适配策略(Model Adaptation Policy):动态调整MPC参数(机器人质量、惯性矩阵、摩擦系数),应对大扰动(如负载变化)。
两种策略均建模为部分可观马尔可夫决策过程(POMDP),分别采用DQN(Deep Q-Network)和PPO(Proximal Policy Optimization)算法训练。
在Unitree A1四足机器人上直接部署仿真训练的策略,无需额外调参。测试场景包括:
- 步态切换验证:0~2 m/s加速过程中自动切换步态;
- 抗扰动验证:背负8 kg负载时,对比纯MPC、仅模型适配策略、完整框架的稳定性与能效;
- 泛化性测试:未训练场景(砾石路面、草地等)下的运动表现。
能量效率优化
鲁棒性提升
仿真到现实的零迁移成本
低层MPC的模型鲁棒性避免了复杂仿真校准,策略直接部署至真实机器人成功。
科学价值
应用价值
方法论创新
技术突破
研究局限性在于摆动腿控制仍依赖手工设计轨迹,未来可引入RL生成自适应足端轨迹以应对复杂地形(如楼梯)。论文开源了仿真与实物实验视频,为社区提供可复现基准。