基于深度强化学习的柔性关节机械臂轨迹跟踪改进方法

分享自：

基于深度强化学习的柔性关节机械臂轨迹跟踪改进方法

机械

工程学

人工智能

信息科学

计算机科学

期刊:IEEE International Conference on Robotics and Automation (ICRA)

【点击此处】阅读全文、收藏及针对性提问

类型a：学术研究报告
作者及机构
 本研究的作者为Dmytro Pavlichenko和Sven Behnke，两人均来自德国波恩大学计算机科学研究所第六研究所的自主智能系统（AIS）研究组。该研究发表于2022年5月的IEEE International Conference on Robotics and Automation (ICRA)，并已在arXiv预印本平台公开（arXiv:2203.07051v1）。
学术背景
 柔性关节机械臂（flexible-joint manipulators）因其复杂的非线性动力学特性，在轨迹跟踪控制（trajectory tracking control）中面临巨大挑战。传统基于模型（model-based）的控制方法需要精确的动力学模型和大量调参，而深度强化学习（Deep Reinforcement Learning, DRL）因其在复杂控制任务中的表现受到关注。然而，现有DRL方法多依赖仿真训练（sim-to-real transfer），而真实机器人动力学模型的仿真往往难以精确建模。
 本研究的目标是提出一种直接在真实机器人上学习的DRL方法，通过外环参考轨迹修正（reference correction）策略，提升柔性关节机械臂的轨迹跟踪精度，同时避免对精确仿真模型的依赖。
研究流程与方法
 1. 问题定义与框架设计
 - 控制架构：提出分层控制框架，外环策略通过DRL学习参考轨迹修正动作（reference correction actions），内环使用厂商提供的经典控制器（如Baxter机器人的逆动力学控制器）。修正动作以20Hz频率施加，并通过低通滤波器（cutoff frequency 4Hz）平滑。
 - 动作空间（action space）：修正动作定义为关节位置和速度的补偿量（$a(t) = [a_q(t), av(t)] \in \mathbb{R}^{2n}$），严格限制在$[-a{\text{max}}, a_{\text{max}}]$范围内，确保安全性。
状态与奖励设计
状态空间（state space）：包含历史观测（过去2个时间步的关节位置、速度及动作）、当前误差（$\Delta q = q{\text{obs}} - q{\text{ref}}$）及未来2个参考点，共112维向量。
 
奖励函数（reward function）：结合位置跟踪（$r_q$）和速度跟踪（$r_v$）的加权奖励（$\omega=0.75$），使用平滑逻辑核函数（logistic kernel）计算，鼓励低误差与运动平滑性。
 
算法与模型
Soft Actor-Critic (SAC)：采用基于最大熵（maximum entropy）的离策略（off-policy）算法，使用Beta策略（Beta policy）替代高斯策略，确保动作有界性。
 
网络结构：Actor和Critic均为两层全连接网络（隐藏层80神经元），输出层分别参数化Beta分布和Q值。
 
训练与初始化
真实机器人训练：在Baxter机器人7自由度机械臂上执行1000条随机轨迹，每条轨迹时长约100分钟，总训练时间小于2小时。
 
知情初始化（informed initialization）：通过数据驱动的粗糙动力学模型预训练策略，加速真实环境收敛。
 
实验验证
基线对比：与厂商控制器相比，SRCP（Stochastic Reference Correction Policy）将平均关节位置跟踪误差降低3倍以上（从$6.87 \times 10^{-2}$ rad降至$2.08 \times 10^{-2}$ rad）。
 
泛化性测试：添加未训练过的0.9 kg负载后，SRCP仍保持优于基线的性能（误差$3.13 \times 10^{-2}$ rad vs. $9.36 \times 10^{-2}$ rad）。
 
主要结果
 1. 跟踪精度提升：SRCP将末端执行器位置误差从3.12 cm降至0.66 cm（无负载），优于传统MPC控制器（1-2.5 cm）。
 2. 学习效率：知情初始化使策略在18分钟内达到基线2倍精度，显著快于随机初始化。
 3. 安全性：动作边界和滤波设计避免了训练中的剧烈运动，硬件无损伤。
结论与价值
 本研究提出了一种直接在真实机器人上学习参考修正策略的DRL方法，解决了柔性关节机械臂的高精度控制问题。其科学价值在于：
 1. 方法创新：结合参考修正框架与SAC算法，实现了安全、高效的在线学习。
 2. 应用价值：无需精确仿真模型，适应动态变化（如负载），为工业机器人提供了可扩展的解决方案。
亮点
 1. 真实机器人学习：首次在7自由度机械臂上实现2小时内直接训练，突破仿真依赖。
 2. 混合控制架构：外环DRL与内环经典控制器互补，兼具泛化性与稳定性。
 3. Beta策略应用：改进动作边界处理，提升学习稳定性。
其他发现
 - 折扣因子（$\gamma$）影响：实验表明$\gamma \in [0.75, 0.85]$最优，过高导致学习缓慢，过低损害运动平滑性。
 - 关节误差分布：基关节（如关节2）因惯性和被动弹簧特性误差较大，SRCP仍能有效补偿。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问