机器人路径学习的空间迭代学习控制方法

分享自：
机器人路径学习的空间迭代学习控制方法

工程学
电气科学与工程
期刊:IEEE Transactions on CyberneticsDOI:10.1109/tcyb.2021.3138992
【点击此处】阅读全文、收藏及针对性提问
基于空间迭代学习控制的机器人路径学习研究学术报告
本文旨在向各位研究者介绍一篇发表于 IEEE Transactions on Cybernetics 2022年7月第52卷第7期的原创研究论文，题为《Spatial Iterative Learning Control for Robotic Path Learning》。该研究由来自西南交通大学电气工程学院的林杨、黄德青（通讯作者）、夏敬康，英国萨塞克斯大学工程与设计系的李亚楠（IEEE高级会员），以及中国空间技术研究院北京控制工程研究所的周晓东共同完成。此项工作得到了中国国家自然科学基金和四川省科技计划等项目的资助。
一、 学术背景与研究动机
本研究属于机器人学、控制理论与人工智能的交叉领域，具体聚焦于机器人学习（Robotic Learning） 与迭代学习控制（Iterative Learning Control, ILC） 方向。随着机器人越来越多地走出围栏，进入非结构化环境并与人类协作，机器人需要具备通过与环境和人进行物理交互来学习技能的能力。传统的示教编程（Programming by Demonstration, PbD）或模仿学习（Learning from Demonstration, LfD）方法，通常关注于轨迹复现，但在需要精确控制与环境交互力（如打磨、雕刻、装配）的任务中，仅学习位置轨迹是不够的。此外，在人机协作（Human-Robot Interaction, HRI） 场景中，人类演示的速度、力度可能每次都不相同，这对学习算法的鲁棒性提出了挑战。
现有基于力的学习方法，如阻抗控制和自适应控制，通常要求环境参数时不变。而传统的时间迭代学习控制（Time-based ILC） 虽然能处理时变参数，但其核心假设是任务在时间上具有严格的重复性，即要求机器人在每次尝试（iteration或trial）中以相同的速度执行任务。这在人机协作中是不现实的，因为人类操作者很难保证每次演示的速度完全一致。因此，现有方法在应对速度不确定的重复性交互任务时存在局限。
针对上述问题，本研究提出了一种创新的空间迭代学习控制（Spatial Iterative Learning Control, SILC） 方法。其核心思想是将学习维度从时间域转换到空间域。研究假设环境（或任务）的约束在空间上是周期性或重复出现的（例如，一个固定的表面形状，或人类期望的固定避障路径），而每次执行任务时，机器人在空间路径上的移动速度可以不同。该方法的目标是让机器人通过与环境的物理交互（感知接触力），迭代地学习并更新其参考路径，最终实现期望的接触力跟踪（例如，保持恒定的接触力进行表面探索，或学习人类施加力所暗示的期望路径）。研究的最终目的是开发一种不依赖于时间周期性的、更灵活、更实用的机器人路径与力技能学习方法。
二、 研究工作的详细流程
本研究遵循了理论分析、仿真验证与实验验证的完整流程，具体步骤如下：
1. 问题建模与控制器设计 * 研究对象与模型： 研究考虑一个刚性机械臂与未知环境进行物理交互的系统。机器人操作空间动力学模型采用标准形式（公式1），其中包含了惯性矩阵、科里奥利力/离心力、重力项以及控制输入和交互力。环境被局部建模为一个线性刚度模型（公式2），即交互力与环境形变成正比，但其刚度参数和平衡位置对机器人未知。关键的创新性假设是：环境参数（刚度、平衡位置）在空间坐标s上具有周期性（公式3），而非在时间上周期性。这意味着无论机器人以何种速度经过空间的某一点，该点的环境特性（如表面高度、期望接触点）是固定的。 * 控制目标： 控制目标是使机器人与环境间的实际交互力 f 跟踪一个期望的力 fd。通过环境模型，可以推导出一个能产生 fd 的期望轨迹 xd，但该轨迹未知。 * 控制器与学习律设计： 研究设计了一个基于位置的阻抗型控制器（公式8），其核心是生成一个参考轨迹 xr。为了实现学习，研究者设计了一个新颖的空间迭代学习律（Spatial Learning Law）（公式21），用于在线更新对未知期望轨迹 xd 的估计值 x̂d。该学习律的输入是当前的力跟踪误差 ef 和速度误差 ev，更新机制基于空间坐标 s：在每个空间周期 S 内，x̂d 根据当前误差进行更新，并将此更新量传递到下一个空间周期的对应位置。这意味着学习是在空间路径上“记住”修正量，而不是在固定的时间点上。参考轨迹 xr 则由滤波后的力信号 e’f 和估计的期望轨迹 x̂d 组合而成（公式18）。整个控制框架的框图如图1所示。
2. 稳定性与收敛性分析 * 分析方法： 为了证明所提SILC方法的有效性，研究进行了严格的李雅普诺夫（Lyapunov）稳定性分析。研究者构造了一个包含力误差和轨迹误差项的李雅普诺夫函数候选式（公式22）。 * 分析流程： 通过将闭环动力学方程（经变换到空间域后的公式13）代入，分别推导了在第一个空间周期（0 ≤ s < S）和后续周期（s ≥ S）下，该李雅普诺夫函数沿系统轨迹的导数（公式26， 30）。分析表明，在满足机器人沿空间路径单向运动（速度v > 0）的假设下，该导数负定或半负定。 * 分析结论： 理论分析最终证明了闭环系统的所有信号有界，并且随着空间坐标s趋向无穷（即机器人不断沿路径运动并迭代学习），力跟踪误差 ef 渐近收敛到零，机器人的实际轨迹收敛到能产生期望力的未知期望轨迹 xd。这为后续的仿真和实验提供了坚实的理论基础。
3. 仿真验证（表面探索任务） * 仿真设置： 研究首先在一个二维表面探索任务中进行仿真验证。机器人末端在x方向以变化的速度运动，与一个未知形状（xd = sin x + sin(x/2)）的表面在y方向发生接触。环境刚度设为已知常数（ke=1）。控制器参数（m, c, k, λ）被设定为固定值。机器人初始参考轨迹为一条直线。 * 仿真实验内容： * SILC有效性验证： 设置了三种不同的期望接触力：fd = 0 N（零力跟踪，即学习表面形状本身）、fd = 1 N（恒定期望力）、fd = 1 - [x/(2π)] N（位置相关的时变期望力）。观察在不同迭代次数下，机器人实际轨迹和接触力的收敛情况。 * 与时间ILC对比： 将所提SILC与文献[3]中的时间ILC方法进行对比。在对比实验中，让机器人在每次迭代中以递增或递减的速度运行，观察两种方法在速度变化时的学习性能。 * 与阻抗控制对比： 将SILC与经典的零刚度阻抗控制进行对比，比较两者在十次学习迭代后的轨迹跟踪精度和接触力误差。 * 数据处理与结果： 仿真直接输出机器人的轨迹位置和接触力数据，并绘制成图（图2-8）。通过观察轨迹曲线与期望轨迹/表面静息位置的贴合程度，以及接触力曲线与期望力的重合程度，来定性判断学习效果。同时，通过对比不同方法在相同条件下的表现，来定量说明SILC的优势。
4. 实验验证（示教学习任务） * 实验平台与对象： 实验在真实的Sawyer七自由度机械臂平台上进行（图9）。实验场景为示教学习（Teaching by Demonstration），即人类操作者通过施加力来引导机器人末端，使其学习一条绕过障碍物的路径。研究设置了两种场景：单障碍物（图10b）和双障碍物（图10c）。机器人被编程在水平方向（x轴）自动移动，而人类在垂直方向（y轴）施加力以修正其路径，避免碰撞。 * 实验流程： 在每次试验（trial）中，机器人从起点移动到终点。人类在感觉到机器人路径不当时施加引导力。机器人记录下整个运动过程中的位置、速度和交互力数据。一次试验结束后，机器人返回起点，利用本次试验收集的数据，通过SILC算法更新其下一次试验的参考路径。此过程重复进行，直到人类感觉无需再施加力（即机器人已学会理想路径）。 * 对比实验： 为了进一步凸显SILC的特性，研究还与一种基于径向基函数神经网络（Radial Basis Function Neural Networks, RBFNNs） 的在线学习方法进行了对比。该方法在[31]中提出，用于估计人类意图，但其更新是基于时间步的。 * 数据采集与分析： 通过Sawyer机器人的关节编码器和扭矩传感器获取数据，经过运动学计算和滤波得到末端执行器的实际位置、速度和交互力。实验记录了每次迭代的机器人轨迹和交互力曲线（图11-14），并计算了平均交互力（表I）作为性能指标。
三、 主要研究结果
1. 理论分析结果： 李雅普诺夫稳定性分析成功证明了所提出的SILC算法能保证系统所有信号有界，并且力跟踪误差、轨迹跟踪误差渐近收敛到零。这为算法在实际应用中的有效性提供了根本保证。
2. 仿真结果： * SILC有效性： 如图2-5所示，对于零力、恒力和时变力三种期望力，SILC均能使机器人的实际轨迹在经过数次迭代后，收敛到能够产生对应期望力的路径上。接触力也相应地收敛到期望值。这验证了SILC在处理不同力跟踪需求时的通用性。特别值得注意的是，仿真中每次迭代的机器人速度都被设置为不同（v = 0.1 + (j/100)），但学习依然成功，证明了其不依赖时间周期性的核心优势。 * 与时间ILC对比： 如图6-7所示，当迭代间速度变化时，时间ILC方法出现了振荡甚至不稳定，学习效果变差。而SILC方法（绿色轨迹）则能很好地收敛。这清晰地证明了在速度不确定的重复任务中，基于空间周期的SILC比基于时间周期的传统ILC具有更强的适用性和鲁棒性。 * 与阻抗控制对比： 如图8所示，经过十次学习后，SILC能几乎完美地跟踪上期望轨迹并实现零接触力。而被动的阻抗控制则产生了显著的轨迹跟踪误差和较大的接触力。这表明SILC通过主动学习优化了参考路径，性能优于单纯的被动柔顺控制。
3. 实验结果： * SILC在真实人机交互中的有效性： 在图11（单障碍物）和图12（双障碍物）中，可以明显看到，随着迭代次数增加，机器人实际轨迹（从初始直线）逐渐变形，最终学会了绕过障碍物的平滑路径。与此同时，人类需要施加的交互力幅值在迭代过程中持续下降（图中力曲线幅度减小，表I中平均力数据递减）。在约5-7次迭代后，交互力已接近为零，意味着机器人已能自主完成避障，无需人类再干预。这完美演示了“技能传递”的过程：机器人从完全被动跟随，通过迭代学习，逐步承担起任务主导权。 * 与神经网络方法的对比： 图13和图14展示了RBFNN方法在相同任务中的表现。结果显示，其学习过程存在明显振荡，且最终收敛后的交互力仍较大。论文指出，这是因为基于时间步的更新方式容易因人类与机器人运动节奏（“时机”）不匹配而产生问题。而SILC基于空间路径的迭代更新，更适合此类重复性的学习任务。这一对比进一步巩固了SILC在特定场景下的优势。
四、 研究结论与价值
本研究成功提出并验证了一种用于机器人路径学习的空间迭代学习控制（SILC）方法。主要结论是：通过利用任务在空间上的重复性，而非时间上的重复性，SILC能够使机器人在与环境或人类交互时，有效学习到能产生期望接触力的空间路径，且不要求每次尝试的运动速度保持一致。
本研究的科学价值在于：首次将SILC思想系统地引入到机器人技能学习领域，突破了传统迭代学习对时间周期性的严格依赖，拓宽了迭代学习理论的应用边界。它为解决人机协作中因人类行为不确定性（如速度变化）带来的学习难题，提供了一个新颖且理论完备的控制框架。
其应用价值体现在多个方面：在工业场景中，可用于让机器人自主学习对未知曲面的恒力跟踪（如打磨、检测）；在人机协作中，可实现更自然、高效的技能传授，人类只需以自己舒适的速度和力度演示几次，机器人便能学会复杂路径，降低了示教门槛和编程难度。论文中演示的表面探索和示教避障是两个典型的应用实例。
五、 研究亮点
核心创新点： 提出了空间迭代学习控制（SILC） 这一新范式，将学习维度从时间转移到空间，从根本上放松了对任务执行速度一致性的要求，这是本研究最突出的理论贡献。
方法的新颖性： 设计了与空间域动力学模型相匹配的学习律（公式21）和控制框架（图1），并完成了严谨的李雅普诺夫稳定性证明，确保了算法的收敛性。
解决问题的针对性： 精准地瞄准了现有力/轨迹学习方法（如时间ILC、阻抗控制、某些神经网络方法）在人机协作等速度不确定场景中的局限性，并通过仿真和实验对比，清晰地展示了SILC的优越性。
验证的充分性： 研究包含了从理论证明、数值仿真到真实机器人实验的完整验证链。仿真涵盖了多种力跟踪模式，实验则聚焦于具有实际意义的人机示教学习任务，并进行了横向对比，论证全面而扎实。
应用的启发性： 研究表明该方法可扩展至多维空间，为后续研究（如文中提到的未来工作：多方向运动、复杂曲面探索）指明了方向。
六、 其他有价值内容
论文在讨论部分（第六节）简要展望了未来工作，包括在更复杂场景（如多方向运动）中测试该方法，以及在真实工件上进行基于SILC的表面探索。这些方向具有重要的研究意义和应用前景。此外，文中对速度v为零或穿越零点的特殊情况进行了讨论（Remark 4），提出了简单的处理策略（如在该点不进行迭代），体现了工程实现的考虑。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问