分享自:

强化学习在轮式双足机器人路径跟踪中的分层控制及仿真到现实框架应用

期刊:2022 IEEE/SICE International Symposium on System Integration (SII)

基于强化学习的轮式双足机器人路径跟踪分层控制研究

作者及发表信息

本文由Wei Zhu, Fahad RazaMitsuhiro Hayashibe共同完成,三位作者均隶属于日本东北大学(Tohoku University)机器人研究所。研究发表于2022年1月的IEEE/SICE International Symposium on System Integration (SII),标题为《Reinforcement Learning Based Hierarchical Control for Path Tracking of a Wheeled Bipedal Robot with Sim-to-Real Framework》。

研究背景与目标

科学领域:本研究属于机器人控制与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于轮式双足机器人(wheeled bipedal robot)的路径跟踪(path tracking)问题。
研究动机
1. 技术挑战:传统PID控制或Lyapunov控制器需手动调参,耗时且稳定性依赖经验;而单一RL框架在复杂任务(如同时平衡与路径跟踪)中训练效率低、仿真到真实(sim-to-real)迁移困难。
2. 应用需求:轮式双足机器人(如文中使用的Igor机器人)在仓储、野外等场景需要高灵活性的运动能力,但现有研究多集中于平衡控制,路径跟踪的鲁棒性研究较少。
研究目标:提出一种结合RL与传统控制的分层框架,实现仿真策略直接迁移至真实机器人,避免实时调参,同时提升路径跟踪的最优性稳定性泛化能力

研究方法与流程

1. 分层控制框架设计

框架分为三层(图2):
- 高层(2Hz):基于DDPG(Deep Deterministic Policy Gradient)算法的RL策略网络,输入为路径跟踪误差(距离误差$ed$、角度误差$e\phi$和上一时刻角速度$\omega(t-1)$),输出为中层控制器的增益参数$\kappa = [k_1, k_2]$。
- 中层(20Hz):Lyapunov非线性控制器,将高层增益转化为目标角速度$\omega$,其稳定性通过Lyapunov函数严格证明($v̇ \leq 0$),确保全局渐近收敛。
- 底层(100Hz):PID平衡控制器,跟踪中层输出的角速度及预设线速度,同时维持机器人倾角$\beta$恒定。

创新方法
- 分层频率分配:高层低频更新避免增益震荡,中层中频保证跟踪精度,底层高频实现实时平衡。
- Sim-to-Real迁移:通过Lyapunov控制器的鲁棒性,仿真训练的策略无需微调即可直接部署至真实机器人。

2. 实验流程

分为仿真训练与真实实验两阶段:
- 仿真训练:在Gazebo环境中训练RL策略网络,随机初始化机器人状态($ed \in [-1,1]$ m,$e\phi \in [-\pi, \pi]$ rad),奖励函数为误差加权和(式4)。对比实验测试了无中层控制器的RL框架(直接输出角速度)。
- 真实实验:将仿真策略部署至Igor机器人,测试直线和圆形路径跟踪性能,并施加外力干扰验证鲁棒性。

主要结果

  1. 仿真性能(表1):

    • 提出的分层框架平均收敛时间(25.6秒)优于对比方法(27.9秒),稳态角度误差(0.085 rad)显著低于对比方法(0.244 rad)。
    • 标准差分析显示,分层框架的稳定性更高(所有指标标准差更小)。
  2. 真实实验(图8-9):

    • 直线跟踪:分层框架在受外力干扰后能快速恢复,而对比方法因缺乏中层控制器导致剧烈抖动甚至失败。
    • 圆形跟踪:将圆形离散为32段直线后,机器人轨迹与目标路径基本吻合,仅存在微小稳态误差。
  3. 策略泛化性

    • 同一策略可适应多种初始状态和路径形状,无需重新训练。

结论与价值

科学价值
1. 提出了一种结合RL与传统控制理论的分层框架,通过Lyapunov稳定性证明解决了RL策略的sim-to-real迁移难题。
2. 验证了分层设计中“高层RL优化+中层稳定控制+底层快速响应”的有效性,为机器人多任务控制提供了新思路。

应用价值
1. 无需手动调参即可实现轮式双足机器人的高精度路径跟踪,降低了工程部署复杂度。
2. 框架可扩展至其他移动机器人(如四足机器人、轮式车辆)。

研究亮点

  1. 创新架构:首次在轮式双足机器人中融合RL与Lyapunov控制,兼顾学习效率与稳定性。
  2. 工程实用性:通过域随机化(domain randomization)和硬件参数校准,显著提升了仿真到真实的迁移成功率。
  3. 多任务协同:同时解决路径跟踪、速度跟踪和平衡控制问题,突破了传统方法单任务优化的局限性。

未来方向

  1. 引入积分因子消除稳态误差。
  2. 融合激光雷达(LiDAR)数据提升定位精度。
  3. 探索未知环境中的自主导航与路径规划。

(注:文档类型为类型a,即单篇原创研究论文。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com