基于强化学习的四足机器人模型预测控制研究学术报告
一、作者与发表信息
本研究的通讯作者为国防科技大学智能科学与技术学院的Lin Lang(邮箱:langlin_8502@nudt.edu.cn),第一作者Zhitong Zhang与Xu Chang为共同贡献作者。论文《Model Predictive Control of Quadruped Robot Based on Reinforcement Learning》于2022年12月22日发表于期刊《Applied Sciences》(2023年第13卷,第154页),遵循CC BY 4.0开源协议。
二、学术背景与研究目标
四足机器人因其仿生运动能力(如高速奔跑、负重、复杂地形适应)成为研究热点,但传统控制方法面临模型失配、参数固定导致的泛化性不足等问题。模型预测控制(Model Predictive Control, MPC)虽能通过滚动时域优化处理约束问题,但对简化模型的依赖性限制了其性能;而强化学习(Reinforcement Learning, RL)通过试错自主学习,但需大量样本且缺乏可解释性。本研究提出了一种融合MPC与RL的新型框架(RL-PDMPC),通过RL动态调整MPC参数,兼顾模型先验知识与数据驱动优化的优势,旨在提升机器人的运动稳定性和指令跟踪能力。
三、研究流程与方法
1. 控制框架设计
- 基础控制器PDMPC:在传统MPC(基于单刚体简化模型)中引入比例-微分(PD)补偿器,分别针对力(公式4)和扭矩(公式5)设计补偿项,以修正模型失配误差。例如,力补偿器通过二次规划(公式8-10)分配虚拟力至支撑腿。
- 强化学习策略:采用PPO算法(Proximal Policy Optimization)训练策略网络,输入为52维状态向量(包括线速度、角速度、关节状态等),输出为16维动作向量,映射至PDMPC的7个步态参数(如腿抬升高度( l_z )、支撑时间( ts ))和9个控制参数(如( k{fz} )、( d_{\tau\psi} ))。
仿真平台构建
训练与验证
四、主要研究结果
1. 运动性能提升
- 速度跟踪:RL-PDMPC的线性速度误差较固定参数控制器降低35%,运动平滑性显著改善(图8)。
- 步态自适应:随速度增加,RL-PDMPC自动缩短步态周期(图10a),符合生物运动规律(如猎豹高速时步频增加),而固定参数控制器无法动态调整(图9a)。
稳定性优化
参数适应性
五、结论与价值
1. 科学价值
- 提出了一种混合控制范式,为结合模型驱动与数据驱动方法提供了新思路,解决了传统MPC参数固化与RL样本效率低的矛盾。
2. 应用价值
- 在Unitree A1机器人上验证的RL-PDMPC框架可推广至其他足式机器人,适用于复杂地形勘探、灾难救援等场景。
3. 局限性
- 依赖仿真训练,需进一步研究Sim-to-Real迁移;手动设计奖励函数可能限制策略探索上限。
六、研究亮点
1. 方法创新:首次将RL用于MPC参数动态调节,而非端到端控制,兼顾性能与可解释性。
2. 工程贡献:开源C++控制库与Python接口,促进算法复现。
3. 生物启发性:步态参数的自适应变化模拟了动物运动策略,为仿生控制提供新证据。
七、其他价值
论文附录详细公开了超参数设置与仿真环境配置,为后续研究提供基准测试平台。作者指出,未来可探索在线学习机制以应对未知环境,进一步释放RL的潜力。