这篇文档属于类型a,是一篇关于四足机器人关节卡死故障容错控制策略的原创性研究论文。以下是对该研究的学术报告:
四足机器人运动策略的元强化学习研究:应对电机卡死的故障容错控制
作者及发表信息
本研究由Ci Chen、Chao Li、Haojian Lu(IEEE会员)、Yue Wang(IEEE会员)和Rong Xiong(IEEE高级会员)共同完成。作者团队主要来自浙江大学工业控制技术国家重点实验室及网络系统与控制研究所,Chao Li同时任职于杭州宇树科技有限公司(DeepRobotics)。论文发表于2025年《IEEE Transactions on Automation Science and Engineering》第22卷,在线发表日期为2024年7月15日,最终版本于2025年3月7日发布。
学术背景
研究领域属于机器人控制与强化学习的交叉学科。四足机器人因在灾难救援、复杂地形巡检等非结构化环境中的卓越运动能力备受关注,但其在极端环境下的故障容错能力研究仍存在空白。关节卡死是机器人常见故障之一,可能由机械损伤、驱动器失效或电机过载等原因引发,会导致机器人自由度(DOA)下降,影响运动稳定性。传统方法需为每种关节卡死场景单独设计控制器,工作量大且缺乏普适性;而现有基于强化学习(RL)的方法在计算效率或策略最优性上存在局限。本研究首次将元强化学习(Meta-RL)引入该问题,旨在开发一种兼具通用性和任务适应性的故障容错策略。
研究流程与方法
1. 问题建模与算法框架
- 将关节卡死场景建模为马尔可夫决策过程(MDP),不同卡死关节对应不同任务。提出基于上下文编码器(Context Encoder)的Meta-RL框架,通过历史交互数据推断任务相关隐变量z,指导策略网络生成适应特定卡死场景的动作。
- 创新性设计闭环参考动作生成器(RAG):根据参考腿的触地事件生成基础步态轨迹,结合残差学习(Residual Learning)思想,由Meta-RL输出关节位置修正量。相比传统方法,RAG显著提升训练效率。
- 开发选择模块(Selection Module):通过监督学习识别故障腿,动态调整RAG的参考腿选择,形成闭环控制。该模块识别准确率达99.9%(见实验部分t-SNE可视化与混淆矩阵分析)。
实验设计与实施
仿真实验:
实物验证:
主要结果
1. 算法性能
- 在单关节卡死任务中,所提方法MELV和MERP均显著优于基准算法(见图6)。例如在FL_Hip卡死时,MELV达0.8(REDQ为0.4),且数据分布更集中,表明对随机种子不敏感。
- 消融实验证实:
- 无RAG时(noref+metarl),机器人出现“拖行步态”,膝关节任务性能下降50%;
- 无Meta-RL时(ref+fullsac),虽能处理多任务但策略最优性不足。
复杂场景扩展
实物部署
结论与价值
本研究首次将Meta-RL应用于四足机器人关节卡死问题,提出结合上下文编码与闭环RAG的解决方案,其科学价值体现在:
1. 为多任务强化学习提供了可解释的隐空间建模方法;
2. 通过残差学习框架解决了高维控制中的稀疏奖励问题。
应用层面,该方法无需人工调参即可适应不同关节故障,在救援机器人等领域具有实用意义。实验表明其计算效率(单步推理0.2ms,见表V)满足实时性要求。
研究亮点
1. 方法创新性:
- 首创“Meta-RL + 闭环RAG”混合架构,平衡通用性与最优性(见图1d);
- 设计的选择模块通过隐变量z识别故障腿,准确率接近100%。
工程贡献:
场景覆盖全面:
测试包含单/多关节卡死、全向运动、崎岖地形等复杂场景,远超同类工作(如文献[11][12][14]仅验证前向运动)。
其他价值
论文补充实验表明:该方法可结合全身控制(WBC)框架,未来有望拓展至动态翻滚等更复杂故障场景。国家科技重大专项(2021ZD0114504)等基金的支持也体现了其战略意义。
(注:实际报告中部分图表引用、参考文献标注因篇幅限制有所简化,完整信息请参考原文。)