基于学习的人机协作分层控制框架学术报告
一、作者与发表信息
本文由Zhehao Jin(浙江工业大学)、Andong Liu(浙江工业大学)、Wen-An Zhang(IEEE会员,浙江工业大学)、Li Yu(IEEE会员,浙江工业大学)及Chun-Yi Su(IEEE高级会员,加拿大康考迪亚大学)共同完成,发表于2023年1月的《IEEE Transactions on Automation Science and Engineering》(第20卷第1期)。研究得到中国国家自然科学基金(61973275)、浙江省自然科学基金(LD21F030002)等资助。
二、学术背景与研究目标
科学领域:本文属于人机协作(Human-Robot Collaboration, HRC)与智能控制交叉领域,结合了深度强化学习(Deep Reinforcement Learning, DRL)和高斯过程回归(Gaussian Process Regression, GPR)方法。
研究背景:在电子装配、航空制造等需要高灵活性的场景中,传统机器人难以适应人类行为的动态变化。现有方法通常将人类行为视为噪声或仅构建简单模型,缺乏对预测置信度的量化。
研究目标:提出一种分层控制框架,通过融合高层任务优化与低层意图预测,实现机器人行为的主动性与安全性的平衡。
三、研究方法与流程
1. 高层控制:DRL策略设计
- 马尔可夫决策过程(MDP)建模:以球-梁系统(Ball and Beam System)为对象,定义状态空间(球位置误差、速度、梁倾角)、动作空间(梁旋转速度)和奖励函数(以长期累积奖励为目标)。
- 算法实现:采用深度确定性策略梯度(DDPG)算法,包含Actor-Critic网络及目标网络,通过Adam优化器更新参数。
- 创新点:相比传统模型预测控制(MPC),DDPG避免了在线求解非凸优化问题,提升了计算效率。
四、主要研究结果
1. 高层策略有效性:仿真与实物实验表明,DDPG策略在稳定性和响应速度上优于PID和MPC(图4-5)。静态误差随折扣因子γ增大而减小(γ=0.99时趋近于零)。
2. 低层预测性能:GPR预测的95%置信区间能有效覆盖真实速度(图8a),且预测误差与方差呈负相关。权重参数动态调整避免了过激进行为(图10)。
3. 整体框架优势:相比纯人类协作(HHC)或传统方法(如卡尔曼滤波),本框架将振荡幅度降低40%,收敛时间缩短25%(图13-15)。
五、结论与价值
科学价值:
1. 提出首个结合DRL与GPR的分层HRC框架,解决了预测置信度量化与动态策略调优问题。
2. 通过概率建模将人类行为不确定性纳入控制闭环,为复杂动态环境下的协作提供理论范式。
应用价值:可直接迁移至装配、搬运等工业场景,提升协作效率与安全性。
六、研究亮点
1. 方法创新:首次在HRC中引入GPR置信度指导策略融合,权重设计公式(18)具有普适性。
2. 工程贡献:框架在实物系统中验证,无需精确模型即可实现高鲁棒性(图7)。
3. 跨学科融合:将DRL的长期优化能力与GPR的概率推理结合,开辟了HRC研究新路径。
七、其他发现
1. 实验揭示人类在突发误操作时(如大幅扰动),保守策略权重会快速降为零(图10b),此时系统由人类主导控制,验证了安全机制的可靠性。
2. 对比实验证明,传统方法(如Q-learning)因离散化动作空间导致维度灾难,而DDPG能直接输出连续控制量(图5)。
(注:全文参考文献及实验数据详见原论文,此处从略。)