分享自:

使用深度强化学习的四足机器人飞行姿态控制

期刊:8th conference on robot learning (corl 2024)

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于深度强化学习的四足机器人飞行姿态控制研究

一、作者与发表信息
本研究由挪威科技大学的Tarek El-Agroudi、Finn Gross Maurer、Jørgen Anker Olsen和Kostas Alexis共同完成,发表于2024年第八届机器人学习会议(CoRL 2024)。研究团队设计了一种低成本四足机器人“Eurepus”,并首次在三维空间中实现了基于深度强化学习(Deep Reinforcement Learning, DRL)的飞行姿态实时控制策略。

二、学术背景
研究领域属于腿式机器人控制深度强化学习的交叉方向。背景动机源于地外探索(如火星熔岩管)对机器人高机动性的需求。传统轮式机器人和直升机在复杂地形中受限,而四足机器人可通过跳跃实现长距离飞行,但需解决飞行阶段的姿态稳定问题。现有方法(如反作用轮)需额外硬件,而本研究提出利用机器人腿部作为反作用质量(reaction mass),通过DRL训练控制策略,兼具轻量化和高性能优势。

三、研究流程与方法
1. 机器人设计与硬件平台
- 研究对象:定制四足机器人Eurepus,采用五连杆腿部设计,含12个舵机(每腿3个),总重2.5 kg,腿部末端配备80克铝制配重以增强惯性。
- 关键硬件:低成本AGF-RC IB53BHP舵机(180 RPM,2 Nm扭矩),Khadas VIM 3单板计算机,以及基于PWM驱动的运动控制系统。

  1. 仿真环境与训练方法

    • 仿真平台:基于NVIDIA Omniverse Isaac Sim构建并行4096个虚拟环境,采用GPU加速的DRL训练流程。
    • 算法:使用近端策略优化(Proximal Policy Optimization, PPO)算法,通过8项加权奖励函数(表1)优化策略,包括姿态误差奖励(如指数核函数$r_1$)、阈值内奖励($r_2$)和终端奖励($r_3$),以及5项抑制振荡和电机磨损的惩罚项。
    • 创新方法
      • 运动学链闭环模拟:通过约束踝关节实现五连杆的稳定仿真,时间步长低至1/480秒。
      • 电机模型简化:将内部PD控制器建模为静态扭矩-速度映射(公式1),参数通过阶跃响应数据标定。
  2. 策略部署与实验验证

    • 测试场景
      • 旋转杆实验:单自由度姿态控制,验证策略对负载(配重质量变化)的鲁棒性。
      • 自由落体实验:从3.5米高度释放,通过动作捕捉系统(MoCap)记录0.7秒内的三维姿态响应。
    • 策略架构(图6):观测向量(31维,含四元数误差、角速度、电机状态)经归一化后输入三层MLP(128-64-64节点,ELU激活),输出电机目标位置,并通过插值(公式2)和自碰撞钳位(基于$\theta_{sum}$阈值)处理。

四、主要结果
1. 旋转杆实验(图7-8):
- 在俯仰(pitch)、横滚(roll)和偏航(yaw)轴上均能跟踪45°阶跃指令,响应时间秒。
- 配重质量变化(40-120克)下策略表现稳定,表明未过拟合仿真动力学。

  1. 自由落体实验(图9-10):

    • 45°姿态指令下,偏航和俯仰轴在0.4秒内收敛,横滚轴需0.6秒。
    • 非主轴复合指令(如30°三轴同步)和大幅指令(120°俯仰、180°偏航)下,平均角速度达110°/秒。
    • 与仿真对比:实际响应存在振荡,主因是MoCap反馈延迟(0.03-0.05秒)和电机模型误差(真实时间常数高50%)。
  2. 对比实验(附录):

    • 与MPC基线对比:DRL策略在计算耗时(0.06 ms vs. 13 ms)和跟踪性能(更快的收敛速度)上显著优于传统模型预测控制。

五、结论与价值
1. 科学价值
- 首次实现四足机器人在三维自由落体中的全自由度姿态控制,验证了DRL在复杂动力学问题中的泛化能力。
- 提出了一种适用于闭链机构的仿真训练框架,为后续研究提供方法论参考。

  1. 应用价值
    • 为地外探索机器人设计提供了低成本、高机动性解决方案,无需额外执行机构。
    • 开源硬件设计(CAD文件与代码)推动社区复现与改进。

六、研究亮点
1. 方法创新
- 通过同一奖励函数适配不同电机速度(调整PPO时间窗与推理频率),解决了低速策略迁移问题。
- 结合插值滤波(公式2)和自碰撞钳位,平衡了响应速度与安全性。

  1. 工程贡献
    • 低成
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com