分享自:

基于学习的分层控制框架在人机协作中的应用研究

期刊:IEEE Transactions on Automation Science and EngineeringDOI:10.1109/TASE.2022.3161993

基于学习的人机协作分层控制框架学术报告

一、作者与发表信息
本文由Zhehao Jin(浙江工业大学)、Andong Liu(浙江工业大学)、Wen-An Zhang(IEEE会员,浙江工业大学)、Li Yu(IEEE会员,浙江工业大学)及Chun-Yi Su(IEEE高级会员,加拿大康考迪亚大学)共同完成,发表于2023年1月的《IEEE Transactions on Automation Science and Engineering》(第20卷第1期)。研究得到中国国家自然科学基金(61973275)、浙江省自然科学基金(LD21F030002)等资助。

二、学术背景与研究目标
科学领域:本文属于人机协作(Human-Robot Collaboration, HRC)与智能控制交叉领域,结合了深度强化学习(Deep Reinforcement Learning, DRL)和高斯过程回归(Gaussian Process Regression, GPR)方法。
研究背景:在电子装配、航空制造等需要高灵活性的场景中,传统机器人难以适应人类行为的动态变化。现有方法通常将人类行为视为噪声或仅构建简单模型,缺乏对预测置信度的量化。
研究目标:提出一种分层控制框架,通过融合高层任务优化与低层意图预测,实现机器人行为的主动性与安全性的平衡。

三、研究方法与流程
1. 高层控制:DRL策略设计
- 马尔可夫决策过程(MDP)建模:以球-梁系统(Ball and Beam System)为对象,定义状态空间(球位置误差、速度、梁倾角)、动作空间(梁旋转速度)和奖励函数(以长期累积奖励为目标)。
- 算法实现:采用深度确定性策略梯度(DDPG)算法,包含Actor-Critic网络及目标网络,通过Adam优化器更新参数。
- 创新点:相比传统模型预测控制(MPC),DDPG避免了在线求解非凸优化问题,提升了计算效率。

  1. 低层控制:意图预测与策略融合
    • 意图预测模块:采用GPR拟合人类手部速度的概率模型,输入特征为前一时刻速度与系统状态,输出为预测均值(速度)和方差(置信度)。
    • 鲁棒策略设计:融合主动策略(基于预测速度跟踪期望梁速度)与保守策略(安全优先),权重参数通过历史预测精度和当前置信度动态调整(公式18-19)。
    • 实验验证:使用7自由度Franka-Panda机器人及3D视觉系统,采集人类协作数据测试框架性能。

四、主要研究结果
1. 高层策略有效性:仿真与实物实验表明,DDPG策略在稳定性和响应速度上优于PID和MPC(图4-5)。静态误差随折扣因子γ增大而减小(γ=0.99时趋近于零)。
2. 低层预测性能:GPR预测的95%置信区间能有效覆盖真实速度(图8a),且预测误差与方差呈负相关。权重参数动态调整避免了过激进行为(图10)。
3. 整体框架优势:相比纯人类协作(HHC)或传统方法(如卡尔曼滤波),本框架将振荡幅度降低40%,收敛时间缩短25%(图13-15)。

五、结论与价值
科学价值
1. 提出首个结合DRL与GPR的分层HRC框架,解决了预测置信度量化与动态策略调优问题。
2. 通过概率建模将人类行为不确定性纳入控制闭环,为复杂动态环境下的协作提供理论范式。
应用价值:可直接迁移至装配、搬运等工业场景,提升协作效率与安全性。

六、研究亮点
1. 方法创新:首次在HRC中引入GPR置信度指导策略融合,权重设计公式(18)具有普适性。
2. 工程贡献:框架在实物系统中验证,无需精确模型即可实现高鲁棒性(图7)。
3. 跨学科融合:将DRL的长期优化能力与GPR的概率推理结合,开辟了HRC研究新路径。

七、其他发现
1. 实验揭示人类在突发误操作时(如大幅扰动),保守策略权重会快速降为零(图10b),此时系统由人类主导控制,验证了安全机制的可靠性。
2. 对比实验证明,传统方法(如Q-learning)因离散化动作空间导致维度灾难,而DDPG能直接输出连续控制量(图5)。

(注:全文参考文献及实验数据详见原论文,此处从略。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com