四足机器人无视觉步态与深度强化学习的融合研究:提升非结构化地形行走能力
作者及发表信息
本研究由以色列本古里安大学机械工程系的Shirelle Drori Marcus与Amir Shapiro,以及沙米恩工程学院机械工程系的Chen Giladi共同完成,论文《Enhancing Quadruped Robot Walking on Unstructured Terrains: A Combination of Stable Blind Gait and Deep Reinforcement Learning》于2025年4月发表于期刊《Electronics》第14卷第7期,论文开放获取,遵循CC BY 4.0许可协议。
学术背景
研究领域与动机
四足机器人因其仿生移动能力在灾害救援、复杂地形勘探等领域具有广泛应用潜力。然而,传统依赖视觉传感器或预设指令的控制方法在黑暗、烟雾或动态障碍环境中表现受限。为此,本研究提出一种融合“稳定盲步态”(Stable Blind Gait)与深度强化学习(Deep Reinforcement Learning, DRL)的新型算法,旨在通过本体感觉(proprioceptive feedback)和触觉反馈实现无视觉条件下的稳定行走,提升机器人在非结构化地形(如楼梯、碎石)中的适应性与鲁棒性。
核心挑战
现有四足机器人面临三大问题:
1. 地形突变导致平衡失效;
2. 动态干扰下稳定性不足;
3. 过度依赖预设步态或高精度视觉传感器。
本研究通过结合模型驱动的稳定步态与数据驱动的DRL优化,试图突破这些限制。
研究流程与方法
1. 稳定盲步态设计
- 理论基础:基于准静态步态(Quasi-Static Gait)原理,确保机器人在运动全程保持静态平衡(即任意时刻可瞬时停止而不倾倒)。支撑多边形(Support Polygon)分析用于验证重心(Center of Mass, COM)投影是否位于支撑区域内。
- 摆动腿轨迹规划:采用抛物线函数控制腿部运动,参数包括水平位移(Δx, Δy)和抬腿高度(h),通过逆运动学(Inverse Kinematics, IK)计算关节角度,并利用足端力传感器(阈值ε)检测地面接触,实现实时避障(Algorithm 1)。
2. 深度强化学习集成
- 算法选择:采用Soft Actor-Critic(SAC)算法,其最大熵框架在连续动作空间(如腿部参数调整)中平衡探索与利用,优于PPO或TD3等替代方案。
- 状态与动作空间:
- 观测状态:机器人COM位置、足端坐标、力传感器数据(归一化处理);
- 动作输出:选择移动的腿(leg_id)及轨迹参数(Δx, Δy, h)。
- 奖励函数设计:
- 正向奖励:前进距离指数增长(公式4)、成功攀爬楼梯(公式6);
- 负向惩罚:跌倒(-0.3)、偏离路径(-0.3)、停滞(-0.1)。
3. 仿真验证
- 平台:CoppeliaSim(v4.3.0)与Bullet物理引擎,通过ZeroMQ远程API连接Python脚本(使用Stable Baselines3库)。
- 训练任务:10 cm高度楼梯攀爬,100次评估周期;泛化测试涵盖7 cm、10 cm、13 cm三种楼梯高度。
主要结果
1. 训练性能:经过50轮滚动平均优化,机器人楼梯攀爬成功率从初始低值提升至93%(10 cm楼梯),累积奖励呈上升趋势(图9)。
2. 泛化能力:
- 7 cm楼梯:成功率98%(视频S8);
- 13 cm楼梯:成功率降至65%(视频S9),表明算法对训练数据范围外场景适应性有限。
3. 关键案例:DRL模块成功优化了稳定步态的固定参数,例如通过调整抬腿高度(h)避免足部卡滞(视频S4)。
结果逻辑链
- 稳定步态提供基础平衡保障,DRL通过环境交互动态优化参数(如Δx, h),二者协同实现高成功率攀爬;
- 泛化性能下降揭示了算法对训练数据分布的依赖性,需进一步扩展训练场景。
结论与价值
科学意义
1. 方法论创新:首次将模型驱动的稳定盲步态与DRL结合,形成“算法架构集成”(Integrated Algorithmic Architecture),优于纯端到端学习或纯模型控制。
2. 应用价值:为视觉受限环境(如灾害现场、地下空间)中的机器人部署提供了可靠解决方案。
局限性
- 训练数据单一(仅10 cm楼梯),导致高楼梯泛化能力不足;
- 准静态步态牺牲了动态运动的流畅性。
未来方向
1. 增量学习(Incremental Learning)扩展至多地形;
2. 引入触觉传感器增强地形感知;
3. 动态步态(Dynamic Gait)与DRL结合以提升速度。
研究亮点
1. 创新融合:稳定盲步态(模型驱动)与DRL(数据驱动)的协同架构;
2. 高鲁棒性:93%楼梯攀爬成功率,无需视觉输入;
3. 开源实现:完整仿真代码与视频数据公开,推动领域复现与改进。
其他贡献
- 提供了详细的奖励函数设计范式,可迁移至其他DRL控制任务;
- 通过CoppeliaSim与Python的API集成方案,为机器人仿真研究提供技术参考。
(注:文中引用视频及图表参见原论文补充材料)