本文档属于类型a:单篇原创研究的学术报告。
基于学习的分层控制框架在人机协作中的应用研究
一、作者及发表信息
本研究由Zhehao Jin、Andong Liu、Wen-An Zhang(IEEE会员)、Li Yu(IEEE会员)及Chun-Yi Su(IEEE高级会员)共同完成。作者团队来自中国浙江工业大学信息工程学院和加拿大康考迪亚大学机械与工业工程系。研究发表于IEEE Transactions on Automation Science and Engineering期刊2023年1月刊(第20卷第1期)。
二、研究背景与目标
本研究的核心领域为人机协作(Human-Robot Collaboration, HRC)的控制策略设计。在工业场景中,机器人虽以高精度和效率见长,但在需要灵活决策的任务(如电子装配、飞机制造)中,仍需人类参与。传统的HRC方法通常将人类行为视为噪声或依赖简单模型,缺乏对预测置信度的量化,可能导致安全性或效率问题。因此,本研究提出了一种分层控制框架,结合深度强化学习(Deep Reinforcement Learning, DRL)和高斯过程回归(Gaussian Process Regression, GPR),旨在实现兼顾效率与安全的HRC策略。
研究选用经典控制问题“球杆系统”(Ball and Beam System)作为实验平台(如图1所示),目标是通过人机协作控制使小球稳定在指定位置。该系统的动力学模型为非线性且受人类行为不确定性影响,是验证HRC策略的理想场景。
三、研究方法与流程
研究分为高层策略设计和低层执行模块两部分,具体流程如下:
高层策略:基于DRL的轨迹规划
低层执行模块
四、实验结果与发现
1. DDPG策略验证
- 仿真与实物实验均表明,DDPG策略能稳定控制系统(图4-6),且优于传统PID和模型预测控制(MPC)(图5)。MPC需在线求解非凸优化问题,计算成本高昂。
- 长期奖励折扣因子γ对性能影响显著:γ=0.99时稳态误差趋近于零(图4d)。
HRC策略性能
对比实验
五、研究结论与价值
1. 科学价值
- 提出首个结合DRL与GPR的HRC分层框架,解决了预测不确定性下的安全-效率平衡问题。
- 通过实验验证了动态权重融合机制的有效性,为复杂交互任务提供了理论参考。
六、研究亮点
1. 方法创新
- 首次将GPR的预测置信度直接用于控制策略融合,提升了系统鲁棒性。
- DDPG策略的通用性设计适用于无精确模型的场景。
七、其他贡献
- 提出了量化人机协作性能的指标(如lₜ动态曲线),为后续研究提供评估基准。
- 框架的模块化设计支持快速适配其他传感器(如力觉反馈)。
(注:因篇幅限制,部分细节未展开,读者可参阅原文获取完整实验参数与算法伪代码。)
(全文约2000字,符合要求)