分享自:

基于强化学习的四足机器人模型预测控制

期刊:appl. sci.DOI:10.3390/app13010154

基于强化学习的四足机器人模型预测控制研究学术报告

一、作者与发表信息
本研究的通讯作者为国防科技大学智能科学与技术学院的Lin Lang(邮箱:langlin_8502@nudt.edu.cn),第一作者Zhitong Zhang与Xu Chang为共同贡献作者。论文《Model Predictive Control of Quadruped Robot Based on Reinforcement Learning》于2022年12月22日发表于期刊《Applied Sciences》(2023年第13卷,第154页),遵循CC BY 4.0开源协议。

二、学术背景与研究目标
四足机器人因其仿生运动能力(如高速奔跑、负重、复杂地形适应)成为研究热点,但传统控制方法面临模型失配、参数固定导致的泛化性不足等问题。模型预测控制(Model Predictive Control, MPC)虽能通过滚动时域优化处理约束问题,但对简化模型的依赖性限制了其性能;而强化学习(Reinforcement Learning, RL)通过试错自主学习,但需大量样本且缺乏可解释性。本研究提出了一种融合MPC与RL的新型框架(RL-PDMPC),通过RL动态调整MPC参数,兼顾模型先验知识与数据驱动优化的优势,旨在提升机器人的运动稳定性和指令跟踪能力。

三、研究流程与方法
1. 控制框架设计
- 基础控制器PDMPC:在传统MPC(基于单刚体简化模型)中引入比例-微分(PD)补偿器,分别针对力(公式4)和扭矩(公式5)设计补偿项,以修正模型失配误差。例如,力补偿器通过二次规划(公式8-10)分配虚拟力至支撑腿。
- 强化学习策略:采用PPO算法(Proximal Policy Optimization)训练策略网络,输入为52维状态向量(包括线速度、角速度、关节状态等),输出为16维动作向量,映射至PDMPC的7个步态参数(如腿抬升高度( l_z )、支撑时间( ts ))和9个控制参数(如( k{fz} )、( d_{\tau\psi} ))。

  1. 仿真平台构建

    • 分层架构:控制层(C++实现MPC)、转换层(SWIG工具封装为Python接口)、训练层(Isaac Gym仿真环境)。20个并行机器人以对角小跑步态训练,仿真步长0.005秒,控制频率100Hz。
    • 奖励函数设计:结合任务目标(速度跟踪误差指数奖励,公式13)与平衡惩罚(高度波动、姿态角惩罚,公式14),通过系数( \beta )平衡各项。
  2. 训练与验证

    • 超参数:衰减因子0.99、学习率3e-4、批量大小960,训练至奖励收敛(约10^6样本)。
    • 对比实验:固定参数PDMPC与RL-PDMPC在速度跟踪、步态适应性、姿态稳定性等方面的性能对比。

四、主要研究结果
1. 运动性能提升
- 速度跟踪:RL-PDMPC的线性速度误差较固定参数控制器降低35%,运动平滑性显著改善(图8)。
- 步态自适应:随速度增加,RL-PDMPC自动缩短步态周期(图10a),符合生物运动规律(如猎豹高速时步频增加),而固定参数控制器无法动态调整(图9a)。

  1. 稳定性优化

    • 姿态控制:RL-PDMPC的滚转角与俯仰角振幅减少40%(图10b),扭矩补偿器参数(( k{\tau\phi} )、( d{\tau\theta} ))随速度自适应增大,增强抗扰动能力(图11c)。
    • 力分配策略:启发式系数( \alpha_x )、( \alpha_y )随速度动态调整(图11a),突破传统倒立摆模型固定系数0.5的限制。
  2. 参数适应性

    • 垂直力增益( k{fz} )随速度降低以减少高度刚性,水平阻尼( d{fx} )减小以软化前向跟踪(图11b),体现参数协同优化。

五、结论与价值
1. 科学价值
- 提出了一种混合控制范式,为结合模型驱动与数据驱动方法提供了新思路,解决了传统MPC参数固化与RL样本效率低的矛盾。
2. 应用价值
- 在Unitree A1机器人上验证的RL-PDMPC框架可推广至其他足式机器人,适用于复杂地形勘探、灾难救援等场景。
3. 局限性
- 依赖仿真训练,需进一步研究Sim-to-Real迁移;手动设计奖励函数可能限制策略探索上限。

六、研究亮点
1. 方法创新:首次将RL用于MPC参数动态调节,而非端到端控制,兼顾性能与可解释性。
2. 工程贡献:开源C++控制库与Python接口,促进算法复现。
3. 生物启发性:步态参数的自适应变化模拟了动物运动策略,为仿生控制提供新证据。

七、其他价值
论文附录详细公开了超参数设置与仿真环境配置,为后续研究提供基准测试平台。作者指出,未来可探索在线学习机制以应对未知环境,进一步释放RL的潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com