基于探索的自注意力模型学习在风险敏感机器人控制中的应用

The overall schematic of the algorithm that consists of the main loop for execution of the robot (yellow line) and the calculation through the agent (red line)

基于自注意机制的风险敏感机器人控制探讨

研究背景

机器人控制中的运动学和动力学是确保任务精确完成的关键因素。大多数机器人控制方案依赖于各种模型来实现任务优化、调度和优先级控制。然而,传统模型的动态特征计算通常复杂且容易产生误差。为了解决这个问题,通过机器学习以及强化学习技术来自动获取模型成为一种可行的替代方案。然而,直接应用于实际的机器人系统中,这种方法存在急剧的运动变化和非期望的行为输出的风险。

研究来源

本文由Dongwook Kim、Sudong Lee、Tae Hwa Hong和Yong-Lae Park撰写,作者分别来自首尔国立大学和洛桑联邦理工学院。该研究发表在2023年的npj Robotics杂志上。

研究内容

研究流程

本文提出了一种在线模型更新算法,直接应用于实际机器人系统。该算法利用嵌入神经网络中的自注意机制模型来处理目标系统的运动学和动力学。其创新之处在于自注意路径的冗余设定和时间独立的模型建立允许通过计算自注意矩阵的迹值来检测异常情况,并在更新模型过程中减少探索过程中的随机变化。

实验流程

  1. 多步骤流程介绍:

    1. 初始输入(运动学模型)利用一个径向基函数神经网络(RBFNN)来逼近运动学。
    2. 引入编码器、解码器和自注意层,从时间关联中提炼关联特征。
    3. 利用自注意矩阵的迹值调整机器人探索区域,以实现优化轨迹控制。
    4. 动力学模型考虑输入控制和机器人配置状态的关系,排除外部力影响,检测干扰并排除受干扰数据集。
    5. 最后,通过两个自注意网络对任务空间和数据集进行健全的屏蔽和调整,最终生成实时反馈控制律。
  2. 具体操作步骤:

    1. 机器人接收控制输入并执行单步动作。
    2. 观测机器人的状态(配置状态和任务状态)。
    3. 计算运动学和动力学方程组件。
    4. 准备下一个目标任务状态。
    5. 确定下一步的控制输入。
    6. 利用重放缓冲区训练神经网络逼近模型。
    7. 通过自注意网络矩阵调整任务空间和屏蔽数据集。

实验方法

  1. 运动学自注意模型: 自注意层通过编码层和解码层将过去时间步的特征进行相关。通过减少迹值与单位矩阵的差异来提高模型预测精度。同时,将异常检测与探索区域约束结合。

  2. 动力学自注意模型: 把控制输入传递给编码层,并与时间关联的其他输入进行自注意网络处理。预测配置状态的变化,识别并忽略外界干扰。

主要结果

  1. 模拟环境下的验证: 机器人在PyBullet模拟环境中完成两个任务(往返运动和圆轨迹跟踪)。从所有任务的执行效果来看,利用自注意网络进行探索调整能够显著提高追踪精准度,且能够及时检测并处理干扰。

  2. 软体机械臂轨迹跟踪应用: 实际搭建并测试了具有三维控制能力的软体机械臂。该软体机械臂成功完成了‘S’形曲线的跟踪任务。在动态变化下降低了探索区域约束值,有效扩大了运动范围并减少了误差。

  3. 工业机器人自主操作: 利用工业机器人UR5e进行钢琴演奏,过程中通过自注意机制逐步扩展任务空间,通过25个实验周期后,机器人成功掌握并演奏了复杂的曲目。

  4. 四足机器人步态控制: 使用四足机器人在未模拟情况下模仿并复制了参考轨迹,实现了稳定行走。通过增加参考轨迹的探索域提升了运动范围。

研究结论

通过在实际机器人系统中应用自注意机制的模型更新算法,本研究大幅提高了复杂任务状态的准确控制并减少外界干扰,验证了算法在广泛机器人应用中的有效性。

研究亮点

  1. 自注意机制在实时机器人控制中的直接应用,提升了模型探测和调整的快速响应能力。
  2. 无需依赖于模拟环境或先验模型知识,实现泛化及高效数据利用。
  3. 动力学和运动学同时考虑,极大降低了实际操作的误差风险。

随着算法的持续优化,预计类似方法可进一步用于更多复杂与高风险任务中的机器人操作控制。