本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于深度强化学习的四足机器人飞行姿态控制研究
一、作者与发表信息
本研究由挪威科技大学的Tarek El-Agroudi、Finn Gross Maurer、Jørgen Anker Olsen和Kostas Alexis共同完成,发表于2024年第八届机器人学习会议(CoRL 2024)。研究团队设计了一种低成本四足机器人“Eurepus”,并首次在三维空间中实现了基于深度强化学习(Deep Reinforcement Learning, DRL)的飞行姿态实时控制策略。
二、学术背景
研究领域属于腿式机器人控制与深度强化学习的交叉方向。背景动机源于地外探索(如火星熔岩管)对机器人高机动性的需求。传统轮式机器人和直升机在复杂地形中受限,而四足机器人可通过跳跃实现长距离飞行,但需解决飞行阶段的姿态稳定问题。现有方法(如反作用轮)需额外硬件,而本研究提出利用机器人腿部作为反作用质量(reaction mass),通过DRL训练控制策略,兼具轻量化和高性能优势。
三、研究流程与方法
1. 机器人设计与硬件平台
- 研究对象:定制四足机器人Eurepus,采用五连杆腿部设计,含12个舵机(每腿3个),总重2.5 kg,腿部末端配备80克铝制配重以增强惯性。
- 关键硬件:低成本AGF-RC IB53BHP舵机(180 RPM,2 Nm扭矩),Khadas VIM 3单板计算机,以及基于PWM驱动的运动控制系统。
仿真环境与训练方法
策略部署与实验验证
四、主要结果
1. 旋转杆实验(图7-8):
- 在俯仰(pitch)、横滚(roll)和偏航(yaw)轴上均能跟踪45°阶跃指令,响应时间秒。
- 配重质量变化(40-120克)下策略表现稳定,表明未过拟合仿真动力学。
自由落体实验(图9-10):
对比实验(附录):
五、结论与价值
1. 科学价值:
- 首次实现四足机器人在三维自由落体中的全自由度姿态控制,验证了DRL在复杂动力学问题中的泛化能力。
- 提出了一种适用于闭链机构的仿真训练框架,为后续研究提供方法论参考。
六、研究亮点
1. 方法创新:
- 通过同一奖励函数适配不同电机速度(调整PPO时间窗与推理频率),解决了低速策略迁移问题。
- 结合插值滤波(公式2)和自碰撞钳位,平衡了响应速度与安全性。