时变不确定环境下机器人操作技能学习的随机最优控制

分享自：
时变不确定环境下机器人操作技能学习的随机最优控制

信息科学
工程学
机械
人工智能
计算机科学
期刊:IEEE Transactions on CyberneticsDOI:10.1109/tcyb.2022.3211440
【点击此处】阅读全文、收藏及针对性提问
本文介绍一项发表在 IEEE Transactions on Cybernetics 2024年4月刊上的原创性研究，题为“Stochastic Optimal Control for Robot Manipulation Skill Learning under Time-Varying Uncertain Environment”。该研究由西北工业大学智能机器人研究中心的刘星（IEEE会员）、刘正雄和黄攀峰（IEEE高级会员）完成，并获得国家自然科学基金等项目的支持。研究致力于解决机器人与未知、时变且包含随机信息的非结构化环境进行物理交互时的最优操作控制问题。
研究的学术背景
随着机器人在非结构化环境（如与人协作、在随机环境中操作工件）中的应用日益广泛，机器人与环境交互的控制问题变得至关重要。在这种交互中，环境模型通常是时变的，甚至包含随机成分。尽管阻抗控制和导纳控制等方法能在变化的环境中实现有效且稳定的交互，但它们并非最优解。现有关于机器人-环境交互最优控制的研究，往往假设环境参数是恒定或确定性的，这限制了它们在现实复杂场景中的应用。实际上，许多环境（如装配中的孔表面、人机交互中的人体手臂）不仅随时间变化，还包含随机信息。同时，以往研究或侧重于解决机器人动力学本身的时变和随机最优控制（如迭代线性二次高斯，Iterative Linear Quadratic Gaussian, iLQG），或侧重于学习环境模型进行最优交互，但较少将二者结合以处理时变且随机的未知环境。模型无强化学习（Model-free Reinforcement Learning）虽能解决此类问题，但收敛速度慢，样本效率低。因此，本文旨在填补这一空白，通过将随机最优控制与环境动力学学习相结合，为时变、未知且随机的环境下的机器人操作技能学习提供一个强大的框架。
本研究的目标是：为机器人在具有未知、时变和随机参数的环境中的交互，开发一种新颖的随机最优操控方法。具体而言，研究提出一种名为“带有学习外部动态的迭代线性二次高斯”（Iterative Linear Quadratic Gaussian with Learned External Dynamics, iLQG-LED）的新方法。该方法能够离线利用高斯过程回归（Gaussian Process Regression, GPR）学习环境动态模型及其随机信息，然后将学习到的模型整合到完整的交互系统动力学中，最终利用改进的iLQG算法求解出最优操控参数。研究期望通过此方法，生成能够同时优化前馈力、参考轨迹和阻抗参数的操控策略，从而提升机器人在复杂、不确定性环境中的自主操作能力。
详细的工作流程
本研究的工作流程是一个结合了数据采集、模型学习、优化计算和实验验证的系统性框架，可以概括为以下几个主要步骤：
步骤一：问题定义与系统建模
首先，研究者定义了机器人与环境交互的问题。他们将机器人的笛卡尔空间动力学建模为一个标准方程，其中包含了控制输入和与环境之间的相互作用力。对于交互控制策略，研究采用了阻抗控制模型，该模型定义了期望的惯性和阻尼矩阵。核心挑战在于环境模型是未知、时变且包含随机信息的。因此，他们将环境建模为一个更一般的非线性系统，其交互力是机器人末端执行器位置、速度和加速度的函数。这个函数及其不确定性，正是后续需要通过数据学习的关键部分。
步骤二：学习外部环境动态
由于环境动态未知，且具有随机性，研究采用高斯过程回归（GPR）来学习这个函数关系。这一步是研究的关键创新点之一。具体实施过程如下： 1. 数据采集：使用一个稳定的初始控制策略（如传统阻抗控制），让机器人执行与环境交互的任务（例如，进行多次孔轴装配实验），同时记录下交互过程中的数据。数据集 D 由输入向量 $d_i = [x, \dot{x}, \ddot{x}]$（位置、速度、加速度）和目标值 $d_o = f$（交互力）构成。 2. 高斯过程建模：将采集到的数据输入GPR模型进行训练。GPR作为一种非参数贝叶斯方法，能够基于有限的数据提供函数的预测均值（即估计的交互力 $\hat{f}$）和预测方差（$\sigma_f^2$），后者量化了模型的不确定性或随机信息。研究详细推导了预测值及其方差对系统状态变量 $\xi = [x; \dot{x}]$ 的导数，这对于后续在最优控制中融入不确定性至关重要。 3. 离线学习：整个学习过程是离线完成的。这意味着无需在在线交互过程中重复或迭代地进行模型学习，从而提高了安全性，避免了在线学习可能带来的不稳定风险。学习完成后，得到了一个能够预测交互力及其不确定性的概率模型。
步骤三：构建随机最优操控框架并推导iLQG-LED算法
将学习到的环境动态（即交互力的预测均值 $\hat{f}$ 和方差 $\sigma_f^2$）代入机器人阻抗控制方程，得到一个包含状态相关噪声的完整的非线性随机系统动力学模型。 1. 框架概述：研究提出了一个随机最优操控框架，其核心是iLQG-LED方法。该框架的输入包括预设的成本函数参数、期望的阻抗参数以及学习到的环境动态。输出则是最优的操控策略，包括名义轨迹 $\bar{\xi}$、反馈增益参数 $L$（与阻抗调节相关）以及前馈力 $\bar{u}$。 2. 算法推导：研究对标准的iLQG算法进行了扩展，以处理学习模型中包含的状态相关噪声，而非之前文献中常见的控制相关噪声。研究者通过线性化系统动力学（围绕名义轨迹和名义控制输入），并近似展开成本函数，推导出了考虑状态相关噪声的最优反馈控制律。核心结果体现在引理1中，它给出了计算成本函数参数递归更新以及最终最优控制策略的公式。文章证明，当忽略状态相关噪声的影响时，该算法退化为经典的离散时间线性二次型调节器（LQR）Riccati方程，表明了本方法更具普适性。 3. 稳定性分析：研究分析了所得最优控制器的稳定性条件。通过将最优控制律代入系统动力学并转换到拉普拉斯域，推导出系统稳定的两个关键条件：一是期望质量矩阵 $M_d$ 必须正定且大于机器人实际质量/惯性的一半；二是矩阵 $Cd + (\partial f / \partial \dot{x}) - L{\dot{x}}$ 和 $(\partial f / \partial x) - L_x$ 必须是半正定的。为确保算法迭代中始终满足这些稳定性约束，研究中采用了类似Levenberg–Marquardt的方法对控制参数进行调整。
步骤四：实施算法流程
研究者明确了所提算法的具体实施步骤： 1. 使用初始稳定控制策略进行数次交互，收集数据。 2. 将收集到的数据输入GPR算法，离线获得环境动态的概率模型。 3. 将学得的模型代入系统模型，利用考虑状态相关噪声的iLQG方法离线计算最优反馈控制律参数 $L_k$。 4. 检查参数是否违反稳定性约束，若违反则基于Levenberg–Marquardt方法进行修正。 5. 将最优反馈控制策略应用于机器人，使其能在具有未知参数和随机信息的时变环境下实现最优交互。
主要结果
研究通过仿真和物理实验两部分验证了所提方法的有效性和优势。
仿真结果： 研究者建立了一个平面2连杆机器人模型，在$x_1$方向与一个线性时变环境交互。环境刚度参数是时变的，并设置了测量噪声和状态相关噪声来模拟随机性。 1. 算法收敛性与有效性：采用两组不同的成本函数权重参数进行测试。结果表明，iLQG-LED方法能够在经过有限次迭代（分别为100次和94次）后收敛到最优成本值。获得的$x_1$方向最优轨迹表明，当最终位置误差权重更大时，末端位置误差更小，但控制输入更大，这与理论预期一致。这证实了算法在面对未知、时变且随机的二阶环境动态时，能够成功计算出最优反馈控制策略。 2. 对比实验：研究将iLQG-LED与文献中一种典型的基于自适应动态规划（Adaptive Dynamic Programming, ADP）的自适应最优控制方法进行了对比。在一个恒定动态但包含随机信息的仿真环境中测试两种方法。结果显示，iLQG-LED方法能使成本值收敛至420.12，同时控制输入平滑，轨迹收敛到目标值。而ADP方法未能收敛，其成本高达845589.85，位置未收敛至目标，且控制力过大。这充分证明了iLQG-LED在处理环境动态随机特性方面的优越性。
实验结果： 研究在KUKA LBR iiwa机器人上进行了孔轴精密装配实验。孔轴之间存在0.35毫米的干涉配合，且由于材料非均匀性，装配过程中的环境动力学是时变且包含随机信息的。 1. 环境建模：首先用传统阻抗控制进行了九次装配演示以采集数据。利用GPR对这些数据进行学习，成功拟合了环境力与机器人状态之间的关系。 2. 优化结果：使用两组不同的控制权重 $r_k$（0.1和1）进行优化。在较少的迭代次数（分别为12次和10次）后，算法收敛至最优成本。得到的优化控制策略（前馈力、名义轨迹、反馈增益）均满足稳定性条件。分析反馈增益参数 $Lx$ 和 $L{\dot{x}}$ 发现，当 $r_k$ 较大（即控制输入成本权重高）时，对应的等效阻尼参数 $Cd - L{\dot{x}}$ 和等效刚度参数 $-L_x$ 更大，这与算法理论推导相符。 3. 性能分析：实验表明，算法能够同时优化前馈力、轨迹和阻抗参数，实现了一种可变阻抗控制。相较于以往仅优化轨迹或阻抗参数的方法，这是一种更接近人类运动控制策略的、更为通用的操控框架。同时，通过离线学习和优化，避免了在线迭代可能带来的不安全问题。
结论与意义
本研究成功提出并验证了一种面向时变不确定环境下机器人操作技能学习的随机最优控制方法（iLQG-LED）。该方法的主要贡献与价值体现在： 1. 方法创新：首次将高斯过程回归（GPR）离线学习与扩展的iLQG随机最优控制相结合，为处理具有未知、时变和随机特性的环境交互问题提供了一个高效、安全的模型化强化学习（Model-based Reinforcement Learning）框架。 2. 策略完备性：所提出的框架能够同时生成最优的前馈力、参考轨迹和阻抗参数，构成一个完整的生物启发的操控策略，模拟了人类在执行复杂操作任务时对这些参数的同时调节。 3. 应用价值：实验成功解决了具有挑战性的孔轴精密装配任务，证明了该方法在处理实际复杂机器人操作问题（如装配、人机交互）上的潜力和应用价值。 4. 理论推进：推导了处理状态相关噪声的iLQG算法，扩展了传统最优控制理论的应用范围，并为后续研究考虑了系统约束（如输入力、关节角限制）等问题奠定了基础。
研究亮点
核心问题新颖：聚焦于机器人在时变且随机的未知环境中的最优交互控制，这一场景更具现实性和挑战性。
技术融合巧妙：将高斯过程回归这种强大的非参数概率建模工具，与迭代线性二次高斯随机最优控制方法相结合。GPR负责离线学习并量化不确定性，iLQG负责在此不确定性下进行在线决策优化，实现了优势互补。
解决方案全面：提出的iLQG-LED方法不仅优化轨迹，还同时优化前馈力和阻抗参数，为机器人操控提供了一个更接近生物原理、更全面的优化框架。
验证充分：研究通过详细的仿真对比实验和真实的机器人物理实验（孔轴装配），从多个角度验证了方法的有效性、优越性及实用性。
安全与效率兼顾：采用离线学习环境模型、离线迭代优化控制策略，再将优化好的策略部署于在线控制，这种方式提高了学习过程的样本效率和操作过程的安全性。
其他有价值的观点
论文在讨论部分指出，未来工作可以考虑在优化过程中加入更多的实际约束（如输入力限幅、关节限位等）。此外，作者认为该方法可进一步应用于人机交互和仿人操作器控制等问题。这些展望指明了该研究方向的潜在扩展领域，具有启发意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问