四足机器人电机卡死的元强化学习运动策略研究

分享自：
四足机器人电机卡死的元强化学习运动策略研究

人工智能
工程学
信息科学
机械
自动化
期刊:ieee transactions on automation science and engineeringDOI:10.1109/tase.2024.3424328
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，是一篇关于四足机器人关节卡死故障容错控制策略的原创性研究论文。以下是对该研究的学术报告：
四足机器人运动策略的元强化学习研究：应对电机卡死的故障容错控制
作者及发表信息
 本研究由Ci Chen、Chao Li、Haojian Lu（IEEE会员）、Yue Wang（IEEE会员）和Rong Xiong（IEEE高级会员）共同完成。作者团队主要来自浙江大学工业控制技术国家重点实验室及网络系统与控制研究所，Chao Li同时任职于杭州宇树科技有限公司（DeepRobotics）。论文发表于2025年《IEEE Transactions on Automation Science and Engineering》第22卷，在线发表日期为2024年7月15日，最终版本于2025年3月7日发布。
学术背景
 研究领域属于机器人控制与强化学习的交叉学科。四足机器人因在灾难救援、复杂地形巡检等非结构化环境中的卓越运动能力备受关注，但其在极端环境下的故障容错能力研究仍存在空白。关节卡死是机器人常见故障之一，可能由机械损伤、驱动器失效或电机过载等原因引发，会导致机器人自由度（DOA）下降，影响运动稳定性。传统方法需为每种关节卡死场景单独设计控制器，工作量大且缺乏普适性；而现有基于强化学习（RL）的方法在计算效率或策略最优性上存在局限。本研究首次将元强化学习（Meta-RL）引入该问题，旨在开发一种兼具通用性和任务适应性的故障容错策略。
研究流程与方法
 1. 问题建模与算法框架
 - 将关节卡死场景建模为马尔可夫决策过程（MDP），不同卡死关节对应不同任务。提出基于上下文编码器（Context Encoder）的Meta-RL框架，通过历史交互数据推断任务相关隐变量z，指导策略网络生成适应特定卡死场景的动作。
 - 创新性设计闭环参考动作生成器（RAG）：根据参考腿的触地事件生成基础步态轨迹，结合残差学习（Residual Learning）思想，由Meta-RL输出关节位置修正量。相比传统方法，RAG显著提升训练效率。
 - 开发选择模块（Selection Module）：通过监督学习识别故障腿，动态调整RAG的参考腿选择，形成闭环控制。该模块识别准确率达99.9%（见实验部分t-SNE可视化与混淆矩阵分析）。
实验设计与实施
仿真实验：
使用PyBullet模拟器，机器人模型基于DeepRobotics的Jueying Lite3，控制频率1kHz。设置12种单关节卡死任务（含髋、膝、外展关节），采用课程学习（Curriculum Learning）分阶段训练，逐步扩大卡死关节角度采样范围（见表IV）。
 
对比实验包括：
 
传统方法（ref-only）：仅使用RAG；
 
基准算法：模型基RL（FADM、GRBAL、REBAL）、模型无关RL（REDQ、Decision Transformer）；
 
消融实验：验证Meta-RL与RAG的贡献。
 
评估指标：平均线性速度跟踪奖励（MELV）和姿态稳定性奖励（MERP）。
 
实物验证：
在Jueying Lite3机器人部署ONNX格式策略网络，通过Intel RealSense T265相机获取速度反馈（替代因关节卡死失效的EKF估计）。
 
测试场景包括前向运动、对角线运动、多关节卡死及崎岖地形行走。
主要结果
 1. 算法性能
 - 在单关节卡死任务中，所提方法MELV和MERP均显著优于基准算法（见图6）。例如在FL_Hip卡死时，MELV达0.8（REDQ为0.4），且数据分布更集中，表明对随机种子不敏感。
 - 消融实验证实：
 - 无RAG时（noref+metarl），机器人出现“拖行步态”，膝关节任务性能下降50%；
 - 无Meta-RL时（ref+fullsac），虽能处理多任务但策略最优性不足。
复杂场景扩展
对角线运动实验（需外展关节参与）显示，该方法在12种关节卡死下均保持轨迹跟踪能力（见图8），而ref-only方法因FL_Knee卡死导致机器人倾覆。
 
双关节卡死实验中（见图12），机器人最多可容忍6个关节同时卡死，但性能随故障关节数增加而下降（见图11）。
 
实物部署
在FL_Hip和HR_Hip卡死场景中（见图13-14），机器人成功维持目标方向行走，身体晃动幅度较ref-only减少70%。
结论与价值
 本研究首次将Meta-RL应用于四足机器人关节卡死问题，提出结合上下文编码与闭环RAG的解决方案，其科学价值体现在：
 1. 为多任务强化学习提供了可解释的隐空间建模方法；
 2. 通过残差学习框架解决了高维控制中的稀疏奖励问题。
 应用层面，该方法无需人工调参即可适应不同关节故障，在救援机器人等领域具有实用意义。实验表明其计算效率（单步推理0.2ms，见表V）满足实时性要求。
研究亮点
 1. 方法创新性：
 - 首创“Meta-RL + 闭环RAG”混合架构，平衡通用性与最优性（见图1d）；
 - 设计的选择模块通过隐变量z识别故障腿，准确率接近100%。
工程贡献：
开源代码与仿真环境（GitHub链接见原文），支持后续研究；
 
实物验证中采用低通滤波与线性插值提升指令平滑性，增强策略可迁移性。
 
场景覆盖全面：
 测试包含单/多关节卡死、全向运动、崎岖地形等复杂场景，远超同类工作（如文献[11][12][14]仅验证前向运动）。
其他价值
 论文补充实验表明：该方法可结合全身控制（WBC）框架，未来有望拓展至动态翻滚等更复杂故障场景。国家科技重大专项（2021ZD0114504）等基金的支持也体现了其战略意义。
（注：实际报告中部分图表引用、参考文献标注因篇幅限制有所简化，完整信息请参考原文。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问