基于学习的分层控制框架在人机协作中的应用研究

分享自：
基于学习的分层控制框架在人机协作中的应用研究

期刊:IEEE Transactions on Automation Science and EngineeringDOI:10.1109/TASE.2022.3161993
基于学习的人机协作分层控制框架学术报告
一、作者与发表信息
 本文由Zhehao Jin（浙江工业大学）、Andong Liu（浙江工业大学）、Wen-An Zhang（IEEE会员，浙江工业大学）、Li Yu（IEEE会员，浙江工业大学）及Chun-Yi Su（IEEE高级会员，加拿大康考迪亚大学）共同完成，发表于2023年1月的《IEEE Transactions on Automation Science and Engineering》（第20卷第1期）。研究得到中国国家自然科学基金（61973275）、浙江省自然科学基金（LD21F030002）等资助。
二、学术背景与研究目标
 科学领域：本文属于人机协作（Human-Robot Collaboration, HRC）与智能控制交叉领域，结合了深度强化学习（Deep Reinforcement Learning, DRL）和高斯过程回归（Gaussian Process Regression, GPR）方法。
 研究背景：在电子装配、航空制造等需要高灵活性的场景中，传统机器人难以适应人类行为的动态变化。现有方法通常将人类行为视为噪声或仅构建简单模型，缺乏对预测置信度的量化。
 研究目标：提出一种分层控制框架，通过融合高层任务优化与低层意图预测，实现机器人行为的主动性与安全性的平衡。
三、研究方法与流程
 1. 高层控制：DRL策略设计
 - 马尔可夫决策过程（MDP）建模：以球-梁系统（Ball and Beam System）为对象，定义状态空间（球位置误差、速度、梁倾角）、动作空间（梁旋转速度）和奖励函数（以长期累积奖励为目标）。
 - 算法实现：采用深度确定性策略梯度（DDPG）算法，包含Actor-Critic网络及目标网络，通过Adam优化器更新参数。
 - 创新点：相比传统模型预测控制（MPC），DDPG避免了在线求解非凸优化问题，提升了计算效率。
低层控制：意图预测与策略融合
 意图预测模块：采用GPR拟合人类手部速度的概率模型，输入特征为前一时刻速度与系统状态，输出为预测均值（速度）和方差（置信度）。
 
鲁棒策略设计：融合主动策略（基于预测速度跟踪期望梁速度）与保守策略（安全优先），权重参数通过历史预测精度和当前置信度动态调整（公式18-19）。
 
实验验证：使用7自由度Franka-Panda机器人及3D视觉系统，采集人类协作数据测试框架性能。
四、主要研究结果
 1. 高层策略有效性：仿真与实物实验表明，DDPG策略在稳定性和响应速度上优于PID和MPC（图4-5）。静态误差随折扣因子γ增大而减小（γ=0.99时趋近于零）。
 2. 低层预测性能：GPR预测的95%置信区间能有效覆盖真实速度（图8a），且预测误差与方差呈负相关。权重参数动态调整避免了过激进行为（图10）。
 3. 整体框架优势：相比纯人类协作（HHC）或传统方法（如卡尔曼滤波），本框架将振荡幅度降低40%，收敛时间缩短25%（图13-15）。
五、结论与价值
 科学价值：
 1. 提出首个结合DRL与GPR的分层HRC框架，解决了预测置信度量化与动态策略调优问题。
 2. 通过概率建模将人类行为不确定性纳入控制闭环，为复杂动态环境下的协作提供理论范式。
 应用价值：可直接迁移至装配、搬运等工业场景，提升协作效率与安全性。
六、研究亮点
 1. 方法创新：首次在HRC中引入GPR置信度指导策略融合，权重设计公式（18）具有普适性。
 2. 工程贡献：框架在实物系统中验证，无需精确模型即可实现高鲁棒性（图7）。
 3. 跨学科融合：将DRL的长期优化能力与GPR的概率推理结合，开辟了HRC研究新路径。
七、其他发现
 1. 实验揭示人类在突发误操作时（如大幅扰动），保守策略权重会快速降为零（图10b），此时系统由人类主导控制，验证了安全机制的可靠性。
 2. 对比实验证明，传统方法（如Q-learning）因离散化动作空间导致维度灾难，而DDPG能直接输出连续控制量（图5）。
（注：全文参考文献及实验数据详见原论文，此处从略。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问