本文档属于类型a,即报告单一原创研究的学术论文。以下是针对该研究的详细学术报告:
IEEE Transactions on Industrial Informatics最新研究:基于液态神经算子的深度强化学习-模型预测控制分层架构实现四足机器人动态运动控制
一、研究团队与发表信息
本研究由哈尔滨工业大学机器人技术与系统国家重点实验室的Lei Hu、Liang Ding(IEEE高级会员)、Huaiguang Yang等团队合作完成,发表于2025年6月的《IEEE Transactions on Industrial Informatics》(DOI: 10.1109/TII.2025.3584522)。论文题为《LNO-Driven Deep RL-MPC: Hierarchical Adaptive Control Architecture for Dynamic Legged Locomotion》。
二、学术背景与研究目标
科学领域:本研究属于机器人控制与人工智能交叉领域,聚焦于四足机器人在工业物联网环境下的动态运动控制问题。
研究动机:
工业场景中,四足机器人需在未知扰动(如负载变化、地形突变)下稳定执行重载运输任务。传统方法面临两大挑战:
1. 基于单刚体动力学模型(Single Rigid Body Dynamics, SRBD)的模型预测控制(MPC)因模型简化导致精度不足;
2. 纯数据驱动的强化学习(RL)策略存在仿真与现实(sim-to-real)的迁移鸿沟。
创新目标:
提出一种结合液态神经算子(Liquid Neural Operator, LNO)、深度模型预测控制(Deep MPC, DMPC)和强化学习的分层控制架构,实现:
- 高精度动力学建模(>92%预测准确率);
- 实时自适应控制;
- 负载重量比突破至1.25(Unitree A1机器人承载15kg)。
三、研究方法与流程
1. 基于LNO的动力学建模
研究对象:Unitree A1四足机器人(参数见表I),采集其在不同地形(海绵、雪地、减速带)及负载条件下的运动数据,数据集规模为$D = {x_t, ut}{t=1}^{n_k}$($n_k$未明确但实验覆盖3种场景)。
核心方法:
- 液态神经算子设计:
提出新型LTC(Liquid Time-Constant)网络结构(图2),包含随机连接层(RCS)、泄漏积分点火神经元层(LIF)、LTCCell层和LTCRNN层。该网络通过ODE(公式9)动态调整神经元时间常数,以捕捉未建模动力学$g(x,u,\lambda)$(公式12)。
- 训练策略:
采用三阶段损失函数(公式13-16):
- 预测损失($l_p$):最小化状态预测误差;
- 线性特性损失($l_l$):保证Koopman算子的线性近似;
- 重构损失($l_r$):减少信息丢失。
2. 深度模型预测控制(DMPC)设计
流程:
- 将LNO生成的动力学模型(公式19)重构为凸二次规划问题(公式23),通过QP求解器(qpoases)实时优化控制输入;
- 控制频率30Hz,预测步长$n_p=10$,计算耗时<1ms。
3. 深度RL-MPC分层架构(图1c)
训练与部署:
- RL策略:在PyBullet仿真环境中训练足端轨迹规划策略(状态空间$s$包含过去5步DMPC数据),奖励函数(公式27)结合速度跟踪与能耗优化;
- 硬件部署:策略直接迁移至实物机器人,无需调参。
四、主要实验结果
1. LNO建模性能
- 在训练集(海绵-硬地过渡)中NRMSE为7.98%;
- 在未见过的验证集(减速带、雪地)中NRMSE分别为5.84%和5.47%,证明其强泛化能力。
2. 负载与动态性能
- 重载稳定性:
- 承载12.5kg以0.6m/s运动时,机身高度误差仅0.38cm(优于Xu等研究的2cm误差);
- 承载15kg(负载重量比1.25)可持续9秒以上(Shafiee等研究为5秒)。
- 高速运动:
承载7.5kg时速度达1.7m/s(Mohsen等研究为1.0m/s),高度误差0.8cm。
3. 抗扰动能力
- 在软海绵地形突加10kg负载后,机身高度稳定在0.26m(图5b);
- 在雪地突加12.5kg负载,高度下降6cm后快速恢复(图5c)。
五、研究结论与价值
科学价值:
1. 首次将Koopman算子理论成功应用于真实四足机器人的动态控制;
2. 提出LNO作为动力学建模新范式,通过算子理论特征学习缩小sim-to-real差距。
应用价值:
- 为工业重载运输提供高适应性解决方案;
- 控制架构在CPU上训练时间<30分钟,具备工程实用性。
六、研究亮点
1. 方法论创新:
- LNO将未建模动力学表示为低维线性系统($m=25$),避免传统Koopman方法的高维需求($m \gg n$);
- DMPC通过状态重构实现凸优化,计算效率超越传统MPC(RCMPC需100Hz更新)。
性能突破:
Unitree A1的综合负载能力超越现有研究[7][8][26],包括速度、精度与抗扰性三项指标。
开源支持:
所有实验视频公开于YouTube(图1c链接),增强可复现性。
七、未来方向
作者计划:
1. 通过李雅普诺夫方法分析神经网络控制器的稳定性;
2. 结合大语言模型实现自主路径规划与人机交互。
(注:全文共约2000字,符合要求)