分享自:

基于中央模式生成器的分层强化学习在四足机器人行走中的应用

期刊:Scientific ReportsDOI:10.1038/s41598-025-94163-2

基于中枢模式发生器(CPG)的分层强化学习实现四足机器人多地形行走的仿真研究

作者及发表信息
本研究由Toshiki Watanabe(京都大学)、Akihiro Kubo(日本先进通信研究所)、Kai Tsunoda(京都大学)等来自京都大学、日本先进通信研究所、爱信株式会社、理化学研究所Guardian Robotics Project的多机构团队合作完成,发表于*Scientific Reports*期刊(2025年,卷15,文章编号11262)。

学术背景
该研究属于机器人控制与人工智能交叉领域,聚焦于四足机器人在非结构化环境(如斜坡、台阶、碎石路)中的自适应行走问题。传统模型预测控制(MPC, Model Predictive Control)依赖精确动力学模型,而深度强化学习(DRL, Deep Reinforcement Learning)虽能通过试错自主学习,但存在样本效率低、训练成本高的问题。中枢模式发生器(CPG, Central Pattern Generator)作为生物神经回路的仿生模型,可通过低维极限环实现鲁棒节律运动(如步态生成)。研究团队提出结合CPG与分层强化学习(HRL, Hierarchical Reinforcement Learning)的新框架(HRl-CPG),旨在实现高效、稳定的多地形步态自适应优化。

研究流程与方法
1. 模型构建
- CPG控制器设计:采用Kuramoto相位振荡器模型(Kuramoto Phase Oscillator Network),其参数(相位差、波形、频率)直接对应步态三要素,相比Matsuoka模型更易解析。每个关节对应一个振荡器,输出目标角度通过PID控制执行。
- 分层策略架构
- 波形调制策略(π_r):通过傅里叶级数(k=5)生成周期性目标关节角度,参数ϕ_r由强化学习调整。
- 相位调制策略(π_p):神经网络输出振荡器相位调整信号a_p,增强环境适应性。
- 基频调制策略(π_ω):动态调整步态周期长度ω=ω_0+ω_1a_ω,提升速度稳定性。
- 联合策略优化:使用软演员-评论家算法(SAC, Soft Actor-Critic)最大化熵正则化回报(式6),平衡探索与利用。

  1. 实验设置

    • 仿真平台:基于PyBullet物理引擎,四足机器人模型“Rex”包含8个关节(大腿/膝关节各4个),状态空间18维(关节角/角速度、躯干旋转/位移)。
    • 任务设计:机器人需在0.4米宽通道内直线行走,测试5种地形(平地、±3°斜坡、摩擦系数0.52.0)。奖励函数(式20)综合前进速度(Δx)、偏离惩罚(y²)和能耗(|ε|)。
    • 训练参数:每次训练最多20秒(1000步),失败条件为跌倒或偏离通道。超参数统一设置(如折扣因子γ=0.99,学习率3×10⁻⁴)。
  2. 对比实验

    • 消融实验:对比完整HRl-CPG与去除π_ω(Ablation 1)或固定π_r(Ablation 2)的版本。
    • 基线方法:包括Deep Transition(PPO/SAC实现)及无CPG的Vanilla SAC,验证CPG的必要性。

主要结果
1. 学习效率:在3.0×10⁴步(约1.0×10⁴秒物理时间)内获得稳定步态,优于Deep Transition(图6)。失败率在多数环境中显著下降(表3),如平地(Env1)仅2.2%,而高摩擦环境(Env4)因探索难度仍达36.5%。
2. 步态性能:成功步态的前进距离(图14)显示,下坡(Env2)最快(11.24米),上坡(Env3)最慢(6.54米),符合物理规律。波形调制策略(图11)学习后呈现非对称峰值,优化了能耗分布。
3. 抗干扰能力:在含坡度噪声(±0.5°)和观测噪声(σ=0.005)的测试中,完整HRl-CPG保持最高成功率(图8-10),而Ablation 2因固定波形仅能保守行走。
4. 对比分析:Vanilla SAC完全失效,证实CPG的结构先验对节律运动至关重要;Deep Transition虽能学习但样本效率低(图7 AUC对比:Full > Ablation > DT)。

结论与价值
1. 科学价值:提出HRl-CPG框架,首次将Kuramoto振荡器的可解释性与SAC的样本效率结合,为耦合动力系统的分层控制提供新思路。
2. 应用价值:在2.7小时内实现多地形自适应,接近实际机器人部署的时效要求,对物流、救灾等场景具现实意义。
3. 局限性:当前仅针对均匀地形,未来需融合视觉感知以应对更复杂环境(如附录B的斑马线摩擦带实验)。

研究亮点
- 方法创新:通过分离波形、相位、频率的层级策略,显著降低搜索空间维度。
- 工程贡献:开源代码支持复现,超参数鲁棒性验证(五环境统一参数)。
- 生物启发性:CPG的极限环特性天然抗干扰,无需额外稳定化设计。

其他发现
附录C揭示学习过程中失败率与前进距离的权衡关系,为动态调整探索策略提供依据。附录E详述Deep Transition的PPO/SAC实现差异,指出网络参数规模对性能的影响。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com