类型a:学术研究报告
作者及机构
本研究的作者为Dmytro Pavlichenko和Sven Behnke,两人均来自德国波恩大学计算机科学研究所第六研究所的自主智能系统(AIS)研究组。该研究发表于2022年5月的IEEE International Conference on Robotics and Automation (ICRA),并已在arXiv预印本平台公开(arXiv:2203.07051v1)。
学术背景
柔性关节机械臂(flexible-joint manipulators)因其复杂的非线性动力学特性,在轨迹跟踪控制(trajectory tracking control)中面临巨大挑战。传统基于模型(model-based)的控制方法需要精确的动力学模型和大量调参,而深度强化学习(Deep Reinforcement Learning, DRL)因其在复杂控制任务中的表现受到关注。然而,现有DRL方法多依赖仿真训练(sim-to-real transfer),而真实机器人动力学模型的仿真往往难以精确建模。
本研究的目标是提出一种直接在真实机器人上学习的DRL方法,通过外环参考轨迹修正(reference correction)策略,提升柔性关节机械臂的轨迹跟踪精度,同时避免对精确仿真模型的依赖。
研究流程与方法
1. 问题定义与框架设计
- 控制架构:提出分层控制框架,外环策略通过DRL学习参考轨迹修正动作(reference correction actions),内环使用厂商提供的经典控制器(如Baxter机器人的逆动力学控制器)。修正动作以20Hz频率施加,并通过低通滤波器(cutoff frequency 4Hz)平滑。
- 动作空间(action space):修正动作定义为关节位置和速度的补偿量($a(t) = [a_q(t), av(t)] \in \mathbb{R}^{2n}$),严格限制在$[-a{\text{max}}, a_{\text{max}}]$范围内,确保安全性。
状态与奖励设计
算法与模型
训练与初始化
实验验证
主要结果
1. 跟踪精度提升:SRCP将末端执行器位置误差从3.12 cm降至0.66 cm(无负载),优于传统MPC控制器(1-2.5 cm)。
2. 学习效率:知情初始化使策略在18分钟内达到基线2倍精度,显著快于随机初始化。
3. 安全性:动作边界和滤波设计避免了训练中的剧烈运动,硬件无损伤。
结论与价值
本研究提出了一种直接在真实机器人上学习参考修正策略的DRL方法,解决了柔性关节机械臂的高精度控制问题。其科学价值在于:
1. 方法创新:结合参考修正框架与SAC算法,实现了安全、高效的在线学习。
2. 应用价值:无需精确仿真模型,适应动态变化(如负载),为工业机器人提供了可扩展的解决方案。
亮点
1. 真实机器人学习:首次在7自由度机械臂上实现2小时内直接训练,突破仿真依赖。
2. 混合控制架构:外环DRL与内环经典控制器互补,兼具泛化性与稳定性。
3. Beta策略应用:改进动作边界处理,提升学习稳定性。
其他发现
- 折扣因子($\gamma$)影响:实验表明$\gamma \in [0.75, 0.85]$最优,过高导致学习缓慢,过低损害运动平滑性。
- 关节误差分布:基关节(如关节2)因惯性和被动弹簧特性误差较大,SRCP仍能有效补偿。