学习高效和稳健的多模态四足运动：一种分层方法

分享自：
学习高效和稳健的多模态四足运动：一种分层方法

人工智能
自动化
机械
工程学
信息科学
期刊:2022 IEEE International Conference on Robotics and Automation (ICRA)
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a：报告单篇原创研究的学术论文。以下是针对该研究的详细学术报告：
主要作者及机构本研究由Shaohang Xu（第一作者，同时隶属于华中科技大学人工智能与自动化学院及香港城市大学数据科学学院）、Lijun Zhu（华中科技大学）和Chin Pang Ho（香港城市大学）共同完成。论文发表于2022年IEEE国际机器人与自动化会议（ICRA），会议于2022年5月23-27日在美国费城举行。
学术背景研究领域与动机
 该研究属于四足机器人运动控制领域，聚焦多模态步态（multi-modal gaits）的高效切换与鲁棒控制问题。自然界四足动物能根据速度和环境自适应切换步态以降低能耗，但机器人实现这一能力仍面临两大挑战：
 1. 高层决策：如何动态选择最优步态；
 2. 底层控制：如何在复杂环境中稳定执行目标步态。
 现有方法中，基于模型预测控制（MPC, Model Predictive Control）的控制器虽能实现单步态鲁棒运动，但无法自动切换步态且对模型误差敏感；而基于强化学习（RL, Reinforcement Learning）的控制器虽无需精确模型，但多数仅支持单一固定步态，限制了能量效率与敏捷性。
研究目标
 提出一种分层控制框架，结合RL与MPC的优势，实现：
 - 通过RL策略自动选择能量最优步态；
 - 通过自适应MPC实现扰动环境下的鲁棒控制；
 - 消除仿真到现实（sim-to-real）的迁移调参需求。
详细研究流程1. 分层控制框架设计框架分为高层控制器（RL决策）与低层控制器（MPC执行）：
 - 高层控制器：
 - 步态选择策略（Gait Selection Policy）：输入为速度指令与本体感知测量，输出为四种步态（walking, slow trotting, fast trotting, flying trotting）的四维独热编码。
 - 模型适配策略（Model Adaptation Policy）：动态调整MPC参数（机器人质量、惯性矩阵、摩擦系数），应对大扰动（如负载变化）。
 两种策略均建模为部分可观马尔可夫决策过程（POMDP），分别采用DQN（Deep Q-Network）和PPO（Proximal Policy Optimization）算法训练。
低层控制器：
 摆动腿控制（Swing Controller）：基于二次多项式轨迹规划，通过PD控制跟踪足端轨迹。
 
支撑腿控制（MPC Controller）：基于简化质心动力学模型，优化地面反力。引入模型参数自适应机制，通过高层策略实时调节MPC参数。
 
2. 实验与训练设置仿真训练：使用PyBullet仿真环境，分两阶段训练：
 模型适配策略训练：针对每种步态，在四种场景（水平地面、负重、斜坡、低摩擦地面）中优化MPC参数。
 
步态策略训练：结合优化后的MPC参数，学习速度-步态映射关系。
 
奖励函数设计：
 步态策略侧重能量效率（公式9：奖励=生存奖励−电机功耗惩罚）；
 
模型适配策略侧重运动稳定性（公式11：奖励=生存奖励−速度跟踪误差）。
 
3. 真实机器人验证在Unitree A1四足机器人上直接部署仿真训练的策略，无需额外调参。测试场景包括：
 - 步态切换验证：0~2 m/s加速过程中自动切换步态；
 - 抗扰动验证：背负8 kg负载时，对比纯MPC、仅模型适配策略、完整框架的稳定性与能效；
 - 泛化性测试：未训练场景（砾石路面、草地等）下的运动表现。
主要结果能量效率优化
加速任务中，框架自动选择步态序列（walking→slow trotting→fast trotting→flying trotting），累积奖励（反映能效）达2189，显著高于单一步态（fast trotting: 1796；flying trotting: 1784）。
 
负载实验中，完整框架选择walking步态（奖励379），比强制采用slow trotting（奖励348）更高效。
 
鲁棒性提升
纯MPC在8 kg负载下失控跌倒，而模型适配策略可使机器人稳定行走；
 
在未训练场景（如砾石斜坡），框架仍能保持运动稳定性，体现强泛化能力。
 
仿真到现实的零迁移成本
 低层MPC的模型鲁棒性避免了复杂仿真校准，策略直接部署至真实机器人成功。
研究结论与价值科学价值
提出首个结合RL决策与MPC执行的分层框架，解决多模态步态的自动切换与鲁棒控制问题；
 
验证了高层策略（RL）与底层模型（MPC）解耦的可行性，为复杂运动控制提供新范式。
 
应用价值
显著提升四足机器人在动态环境中的能效与适应性，适用于物流负重、野外勘探等场景；
 
框架无需sim-to-real调参，降低工程部署成本。
 
研究亮点方法论创新
首创“RL决策+自适应MPC”分层架构，兼顾学习型方法的灵活性与模型方法的精确性；
 
模型适配策略通过调整MPC参数间接应对扰动，避免了直接学习关节控制的复杂性。
 
技术突破
实现多步态自动切换，能量效率接近生物学启发的最优解；
 
在真实机器人上实现“训练即部署”（train-as-is），突破RL控制器的sim-to-real瓶颈。
 
其他价值研究局限性在于摆动腿控制仍依赖手工设计轨迹，未来可引入RL生成自适应足端轨迹以应对复杂地形（如楼梯）。论文开源了仿真与实物实验视频，为社区提供可复现基准。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问