分享自:

基于层次学习框架的人机协作控制

期刊:IEEE Transactions on Automation Science and EngineeringDOI:10.1109/TASE.2022.3161993

本文档属于类型a:单篇原创研究的学术报告。


基于学习的分层控制框架在人机协作中的应用研究

一、作者及发表信息
本研究由Zhehao Jin、Andong Liu、Wen-An Zhang(IEEE会员)、Li Yu(IEEE会员)及Chun-Yi Su(IEEE高级会员)共同完成。作者团队来自中国浙江工业大学信息工程学院和加拿大康考迪亚大学机械与工业工程系。研究发表于IEEE Transactions on Automation Science and Engineering期刊2023年1月刊(第20卷第1期)。

二、研究背景与目标
本研究的核心领域为人机协作(Human-Robot Collaboration, HRC)的控制策略设计。在工业场景中,机器人虽以高精度和效率见长,但在需要灵活决策的任务(如电子装配、飞机制造)中,仍需人类参与。传统的HRC方法通常将人类行为视为噪声或依赖简单模型,缺乏对预测置信度的量化,可能导致安全性或效率问题。因此,本研究提出了一种分层控制框架,结合深度强化学习(Deep Reinforcement Learning, DRL)和高斯过程回归(Gaussian Process Regression, GPR),旨在实现兼顾效率与安全的HRC策略

研究选用经典控制问题“球杆系统”(Ball and Beam System)作为实验平台(如图1所示),目标是通过人机协作控制使小球稳定在指定位置。该系统的动力学模型为非线性且受人类行为不确定性影响,是验证HRC策略的理想场景。

三、研究方法与流程
研究分为高层策略设计低层执行模块两部分,具体流程如下:

  1. 高层策略:基于DRL的轨迹规划

    • 任务建模:将球杆系统描述为马尔可夫决策过程(MDP),定义状态空间(小球位置误差、速度、梁倾角等)、动作空间(梁的旋转角速度)及奖励函数(以误差最小化为目标)。
    • 算法实现:采用深度确定性策略梯度算法(DDPG),包含四个神经网络(Actor、Critic及其目标网络)。通过离线训练优化策略,生成理想的梁旋转角速度(θ̇ₚ)。
    • 创新点:DDPG直接输出连续控制指令,避免了传统离散动作空间的维数灾难问题,且适用于无精确模型的复杂系统。
  2. 低层执行模块

    • 人类意图预测(GPR模型)
      • 数据采集:记录人类手部速度(vₕ)与系统状态的时序关系,构建训练集。
      • 模型训练:使用GPR拟合概率模型,输出预测速度(v̂ₕ)及其置信区间(方差σ²)。GPR的高数据效率特性适合小样本场景。
    • 鲁棒协作策略设计
      • 主动策略:基于预测的v̂ₕ计算机器人末端速度(vᵣ),使实际θ̇跟踪高层规划的θ̇ₚ。
      • 保守策略:在预测置信度低时(如σ²较大),机器人减速以确保安全。
      • 动态融合:通过权重参数(l)自适应调整两种策略的占比,l与预测精度(历史误差eₜ)和置信度(σ²)负相关(公式:l = e^(-σ²/d) · cₜ)。

四、实验结果与发现
1. DDPG策略验证
- 仿真与实物实验均表明,DDPG策略能稳定控制系统(图4-6),且优于传统PID和模型预测控制(MPC)(图5)。MPC需在线求解非凸优化问题,计算成本高昂。
- 长期奖励折扣因子γ对性能影响显著:γ=0.99时稳态误差趋近于零(图4d)。

  1. HRC策略性能

    • 与纯机器人控制相比,融合人类输入的HRC策略响应更快、超调更小(图7)。
    • 在突发误操作场景下(图9),置信度下降触发保守策略(l→0),由人类主导控制以避免危险。
  2. 对比实验

    • 无预测模型:仅依赖DDPG的策略因未考虑人类输入导致振荡(图11)。
    • 与传统方法对比:基于卡尔曼滤波(KF)的预测存在滞后性,而GPR提供更准确的置信估计(图14)。
    • 人-人协作(HHC):HRC策略的稳定性显著优于人类双人协作(图15)。

五、研究结论与价值
1. 科学价值
- 提出首个结合DRL与GPR的HRC分层框架,解决了预测不确定性下的安全-效率平衡问题。
- 通过实验验证了动态权重融合机制的有效性,为复杂交互任务提供了理论参考。

  1. 应用价值
    • 框架可扩展至装配、搬运等工业场景(备注4),仅需针对新任务调整MDP和GPR训练集。
    • 对非专家级人类操作者友好,降低了协作门槛。

六、研究亮点
1. 方法创新
- 首次将GPR的预测置信度直接用于控制策略融合,提升了系统鲁棒性。
- DDPG策略的通用性设计适用于无精确模型的场景。

  1. 实验设计
    • 通过球杆系统的多模态(仿真/实物、正常/扰动)验证,全面评估框架性能。
    • 开源代码与数据集促进了结果复现(见补充材料)。

七、其他贡献
- 提出了量化人机协作性能的指标(如lₜ动态曲线),为后续研究提供评估基准。
- 框架的模块化设计支持快速适配其他传感器(如力觉反馈)。

(注:因篇幅限制,部分细节未展开,读者可参阅原文获取完整实验参数与算法伪代码。)


(全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com