本文由Wei Zhu, Fahad Raza和Mitsuhiro Hayashibe共同完成,三位作者均隶属于日本东北大学(Tohoku University)机器人研究所。研究发表于2022年1月的IEEE/SICE International Symposium on System Integration (SII),标题为《Reinforcement Learning Based Hierarchical Control for Path Tracking of a Wheeled Bipedal Robot with Sim-to-Real Framework》。
科学领域:本研究属于机器人控制与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于轮式双足机器人(wheeled bipedal robot)的路径跟踪(path tracking)问题。
研究动机:
1. 技术挑战:传统PID控制或Lyapunov控制器需手动调参,耗时且稳定性依赖经验;而单一RL框架在复杂任务(如同时平衡与路径跟踪)中训练效率低、仿真到真实(sim-to-real)迁移困难。
2. 应用需求:轮式双足机器人(如文中使用的Igor机器人)在仓储、野外等场景需要高灵活性的运动能力,但现有研究多集中于平衡控制,路径跟踪的鲁棒性研究较少。
研究目标:提出一种结合RL与传统控制的分层框架,实现仿真策略直接迁移至真实机器人,避免实时调参,同时提升路径跟踪的最优性、稳定性和泛化能力。
框架分为三层(图2):
- 高层(2Hz):基于DDPG(Deep Deterministic Policy Gradient)算法的RL策略网络,输入为路径跟踪误差(距离误差$ed$、角度误差$e\phi$和上一时刻角速度$\omega(t-1)$),输出为中层控制器的增益参数$\kappa = [k_1, k_2]$。
- 中层(20Hz):Lyapunov非线性控制器,将高层增益转化为目标角速度$\omega$,其稳定性通过Lyapunov函数严格证明($v̇ \leq 0$),确保全局渐近收敛。
- 底层(100Hz):PID平衡控制器,跟踪中层输出的角速度及预设线速度,同时维持机器人倾角$\beta$恒定。
创新方法:
- 分层频率分配:高层低频更新避免增益震荡,中层中频保证跟踪精度,底层高频实现实时平衡。
- Sim-to-Real迁移:通过Lyapunov控制器的鲁棒性,仿真训练的策略无需微调即可直接部署至真实机器人。
分为仿真训练与真实实验两阶段:
- 仿真训练:在Gazebo环境中训练RL策略网络,随机初始化机器人状态($ed \in [-1,1]$ m,$e\phi \in [-\pi, \pi]$ rad),奖励函数为误差加权和(式4)。对比实验测试了无中层控制器的RL框架(直接输出角速度)。
- 真实实验:将仿真策略部署至Igor机器人,测试直线和圆形路径跟踪性能,并施加外力干扰验证鲁棒性。
仿真性能(表1):
真实实验(图8-9):
策略泛化性:
科学价值:
1. 提出了一种结合RL与传统控制理论的分层框架,通过Lyapunov稳定性证明解决了RL策略的sim-to-real迁移难题。
2. 验证了分层设计中“高层RL优化+中层稳定控制+底层快速响应”的有效性,为机器人多任务控制提供了新思路。
应用价值:
1. 无需手动调参即可实现轮式双足机器人的高精度路径跟踪,降低了工程部署复杂度。
2. 框架可扩展至其他移动机器人(如四足机器人、轮式车辆)。
(注:文档类型为类型a,即单篇原创研究论文。)