分享自:

柔性连杆末端执行器的集成高增益反馈控制与深度强化学习控制

期刊:international journal of control, automation, and systemsDOI:10.1007/s12555-024-0450-y

类型a:

本文介绍的是由Jiahui Yun、Yadong Xu和Quan Zou*共同完成的研究成果,发表在《International Journal of Control, Automation, and Systems》2025年第23卷上,标题为《Integrated High-Gain Feedback Control and Deep Reinforcement Learning Control of a Flexible Link with End-Effector》。该研究由南京理工大学机械工程学院的研究团队完成,通讯作者为Quan Zou。

学术背景
柔性连杆(Flexible Link, FL)的精确轨迹跟踪控制在工业和航空航天领域具有重要应用价值,但其固有的非最小相位特性和分布式参数特性带来了显著挑战。传统控制方法如计算力矩控制(CTC)和滑模控制(SMC)依赖于精确的动力学模型,而模型不确定性(如未建模的高频动态和时变负载条件)限制了其实际性能。近年来,数据驱动方法如深度强化学习(Deep Reinforcement Learning, DRL)为解决这些问题提供了新思路,但现有研究多集中于水平平面内的控制,忽略了重力影响,且计算效率不足。本研究旨在提出一种结合高增益反馈控制(High-Gain Feedback Control, HGFC)和基于Soft Actor-Critic(SAC)的DRL框架的混合控制架构(HGFC-SAC),以同时实现高精度轨迹跟踪和振动抑制。

研究流程
1. 问题建模与动力学分析
研究基于欧拉-伯努利梁理论,采用假设模态法(Assumed Modes Method, AMM)对柔性连杆系统进行建模。通过拉格朗日动力学推导出系统动力学方程(式1-26),并将其转化为状态空间表达式(式27)。控制目标为设计控制律,使末端执行器的轨迹跟踪误差和柔性模态坐标满足预设边界(式2-3)。

  1. HGFC设计
    HGFC基于拉格朗日动力学设计,通过高增益反馈增强瞬态响应特性。其控制律(式29)包含轨迹误差的范数及其时间导数,并通过李雅普诺夫函数(式45-48)证明其稳定性。HGFC在动态运动阶段表现优异,但对稳态精度和重力引起的静态变形补偿能力有限。

  2. FL-SAC框架设计
    研究提出基于SAC算法的DRL控制器(FL-SAC),其创新点包括:

    • 设计密集奖励函数(式41),解决大动作空间中奖励稀疏问题;
    • 采用高斯分布输出动作,通过重参数化技术(式37)确保策略函数可微;
    • 引入熵正则化(式32-39)平衡探索与利用,提升训练稳定性。
      网络结构(图4)包含Actor和Critic网络,训练参数如表1所示,伪代码见算法1。
  3. 混合控制律设计
    提出基于轨迹速度的混合律(式43),动态融合HGFC和FL-SAC的输出。该混合律通过状态依赖的权重分配(θ̇nor)实现平滑过渡,避免控制力矩切换时的振荡问题(图16)。理论分析(式50-51)证明其闭环稳定性。

  4. 数值仿真验证
    仿真对比HGFC-SAC与HGFC、FL-SAC、CTC和SMC的性能:

    • 轨迹跟踪精度:HGFC-SAC在动态阶段最大误差为0.336 m(五阶多项式轨迹)和0.2211 m(正弦轨迹),稳态误差仅为0.0212 m(表3);
    • 抗干扰能力:在4-8秒施加高斯扰动时,HGFC-SAC最大扰动误差为0.0758 m,远低于FL-SAC的0.3667 m(表4);
    • 参数敏感性:混合律参数kg和时间延迟(timedelay)对动态跟踪精度影响显著(图15)。

主要结果与逻辑关系
- HGFC在动态阶段通过模型驱动快速响应,而FL-SAC通过数据驱动优化稳态精度,二者互补性通过混合律实现(图5);
- 奖励函数设计(式41)使FL-SAC训练效率提升,回报收敛更快(图6);
- 混合律有效抑制了控制力矩振荡(图16),验证了其优于加法律(add)和切换律(switch)的平滑性。

结论与价值
HGFC-SAC框架的创新性体现在:
1. 方法学层面:首次将HGFC与SAC结合,通过混合律解决模型驱动与数据驱动的协同问题;
2. 技术层面:设计密集奖励函数和熵正则化策略,提升DRL在柔性系统控制中的适用性;
3. 应用价值:为无需变形测量的柔性连杆控制提供了通用解决方案,适用于重力场下的高精度操作场景。

研究亮点
- 混合架构:HGFC-SAC首次实现模型与数据驱动控制的动态融合;
- 算法改进:FL-SAC通过奖励函数和熵优化解决DRL训练不稳定问题;
- 工程意义:仿真表明其峰值动态误差降低17.3%,稳态误差降低48.2%(摘要数据),优于现有方法。

其他价值
研究为柔性机械臂的实时控制提供了新范式,未来可拓展至多连杆系统及实验验证。代码与参数已公开,便于复现(表1-2)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com