这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
作者及发表信息
本研究由Guillaume Bellegarda(瑞士洛桑联邦理工学院EPFL)、Chuong Nguyen和Quan Nguyen(美国南加州大学)共同完成,发表于期刊Robotics and Autonomous Systems第182卷(2024年),文章标题为《Robust Quadruped Jumping via Deep Reinforcement Learning》。
学术背景
研究领域:本研究属于足式机器人动态运动控制领域,聚焦于四足机器人的跳跃行为优化。
研究动机:现有基于轨迹优化(Trajectory Optimization)的跳跃控制方法在理想条件下(如平坦地面、精确动力学模型)表现良好,但在实际环境中面临两大挑战:
1. 环境扰动(如不平坦地形)会导致机器人起飞姿态偏差,进而影响落地精度;
2. 硬件限制(如电机扭矩-速度关系、电池功率限制)在动态跳跃中未被充分建模,导致仿真(sim)与实物(real)的转移(sim-to-real)失败。
研究目标:提出一种结合深度强化学习(Deep Reinforcement Learning, DRL)与轨迹优化的框架,提升四足机器人在噪声环境下的跳跃鲁棒性,同时整合电机动力学和功率约束以实现零调参(zero-shot)的sim-to-real部署。
研究方法与流程
1. 轨迹优化基础
- 模型简化:使用5连杆平面模型(sagittal plane model)生成跳跃轨迹,分为三阶段:双足接触(起飞准备)、单足接触(后腿蹬地)、飞行阶段。
- 优化目标:通过非线性优化求解关节角度、速度及前馈扭矩,最小化能量消耗并满足动力学约束(如摩擦锥、关节限位)。
- 控制器设计:采用PD控制器跟踪优化生成的轨迹,结合关节空间和笛卡尔空间反馈(公式4-6)。
2. DRL框架设计
- 状态-动作空间:
- 动作空间:12维向量,表示足端在笛卡尔空间的轨迹偏移量(±5 cm),更新频率50 Hz。
- 状态空间:包含机器人初始状态、目标状态及历史状态(0.2秒窗口),涵盖身体位姿、关节状态、足端接触信息等。
- 奖励函数:稀疏奖励(Sparse Reward),仅基于最终落地点与目标位置的误差(公式11),避免过度约束中间轨迹。
- 训练环境:在PyBullet仿真中随机选择13组跳跃轨迹(距离0.5–0.8 m,高度0–0.4 m),并添加环境噪声(足端高度扰动≤10 cm、质量/惯量±5%变化)。
3. 电机与功率约束整合
- 电机模型:直流电机电压-扭矩-速度关系(公式13)被建模为线性约束,限制最大电压(21.5 V)和功率(1290 W)。
- 实时约束处理:通过算法1分两步处理:
- 电机动态约束(MDC):修正超限扭矩(公式15);
- 功率约束:按比例缩放扭矩(公式19),确保总功率不超限。
4. 实验验证
- 仿真测试:对比高/低关节增益(300 vs. 100 N·m/rad)下的跟踪性能,验证DRL对增益参数的鲁棒性。
- 硬件部署:在Unitree A1机器人上实现零调参sim-to-real,测试不同跳跃目标(如水平距离60 cm、高度20 cm)及足端扰动(6 cm障碍,占站立高度的33%)。
主要结果
仿真性能:
- 在理想条件下,DRL框架将低增益控制器的追踪误差降低至与高增益相当(图6)。
- 在噪声环境中(足端扰动6 cm),传统前馈控制器(Baseline)完全失效(奖励≈0),而DRL策略成功完成跳跃(图7)。
硬件实验:
- 无约束策略:因超电压(30 V)和功率(3750 W)导致跳跃失败(图9-10)。
- 仅MDC约束:满足电压限制但仍超功率(2500 W),未能达标。
- 完整约束策略:同时满足电压和功率限制,成功实现目标跳跃(图8)。
关键发现:
- 足端轨迹偏移量需显著偏离优化轨迹以补偿环境噪声(图12),表明DRL能自主调整运动策略。
- 跳跃过程中电池功率始终接近极限(图11),凸显功率约束整合的必要性。
结论与价值
科学价值:
1. 提出首个将DRL与轨迹优化结合的框架,解决了噪声环境下四足跳跃的鲁棒性问题。
2. 通过整合电机动力学和功率约束,实现了高动态动作的零调参sim-to-real转移。
应用价值:
1. 为野外搜救、星球探测等非结构化环境中的机器人任务提供可靠运动控制方案。
2. 框架可扩展至其他动态行为(如后空翻、高速奔跑),推动足式机器人敏捷性边界。
研究亮点
- 方法创新:首次在跳跃控制中联合优化DRL与硬件约束,突破传统轨迹优化的局限性。
- 实验验证:在Unitree A1上实现2倍体长距离跳跃,抗扰动能力达33%站立高度。
- 理论贡献:证明稀疏奖励在跳跃任务中优于密集奖励(图14),为DRL设计提供新见解。
其他价值
- 开源与可复现性:代码与数据可公开获取,推动社区研究。
- 跨平台潜力:框架适用于其他四足机器人(如MIT Cheetah 3),具通用性。
(报告完)