基于深度强化学习(Deep Reinforcement Learning, DRL)的注射成型机液压伺服系统PID控制优化研究
作者及发表信息
本研究由Xiaoxi Hao、Zengmiao Xin(通讯作者)、Weizhuo Huang、Sicheng Wan、Guangfan Qiu、Tianlei Wang(通讯作者)和Zhu Wang(通讯作者)合作完成,作者单位包括五邑大学机械与自动化工程学院、电子与信息工程学院以及江门市蒙德电气有限公司。研究成果发表于Scientific Reports期刊(2025年,卷15,文章编号23005)。
学术背景
研究领域与动机
该研究属于智能控制与机电一体化交叉领域,聚焦于注射成型机液压伺服系统的高精度位置控制问题。传统PID控制在非线性特性和外部扰动下表现不足,而深度强化学习(DRL)因其在复杂环境中的自适应能力成为优化控制策略的新方向。
科学问题
液压伺服系统在航空航天、汽车制造等领域对大型注塑件的需求激增背景下,面临动态负载和复杂工况下的控制精度挑战。传统PID依赖人工调参,难以应对非线性扰动;而现有智能控制方法(如模糊PID)设计复杂且实时性不足。
研究目标
提出一种结合深度确定性策略梯度算法(DDPG)与辅助伺服阀的自适应PID控制策略,实现液压缸位置的高精度、快速响应和强鲁棒性控制。
研究流程与方法
1. 系统建模与结构创新
- 研究对象:双阀并联液压伺服系统(主阀+辅助阀),针对非对称液压缸的流量失衡问题。
- 模型假设:忽略油液压缩性、管道弹性变形,线性化伺服阀动态特性。
- 创新结构:辅助阀在活塞伸出时补充无杆腔流量,缩回时关闭,显著改善启动延迟和动态响应。
2. DDPG-PID控制策略设计
- 状态空间:位置误差、误差变化率、目标速度。
- 动作空间:PID参数(Kp, Ki, Kd)的实时调整。
- 奖励函数设计:复合奖励(位移误差+斜率误差),避免稀疏奖励导致的收敛慢问题(公式15-17)。
- 网络架构:
- Actor网络:4层全连接(ReLU激活),输出tanh归一化的PID参数。
- Critic网络:双输入结构(状态+动作),通过Q值评估策略。
3. 联合仿真与实验验证
- 仿真平台:Simcenter Amesim(液压系统建模) + MATLAB/Simulink(DDPG训练)。
- 实验设计:
- 对比方法:模糊PID、滑模控制(SMC)。
- 测试场景:阶跃信号、正弦跟踪、多段位移(模拟注塑机合模-锁模-开模流程)。
- 扰动测试:阶跃/斜坡/随机脉冲扰动(模拟负载突变)。
4. 性能评估指标
- 动态性能:上升时间、调整时间、超调量。
- 鲁棒性:峰值误差、恢复时间、均方根误差(RMSE)。
主要结果
阶跃响应
- DDPG-PID上升时间0.93秒,无超调;模糊PID(0.97秒,超调0.03%);SMC(1.13秒)。
- 在扰动下,DDPG-PID的峰值误差比SMC降低74.8%,恢复时间快60%。
正弦跟踪
- DDPG-PID误差≤2mm(92.6%数据点),优于模糊PID(3mm)和SMC(5mm)。
- 误差分布更集中(图11),表明稳定性更强。
多段位移控制
- 注塑流程(5秒内完成):DDPG-PID各阶段误差<2mm,调节时间最短。
参数不确定性测试
- 主阀频率降低1Hz或传感器噪声±1%时,DDPG-PID仍保持误差<2mm(图13)。
结论与价值
科学价值
- 首次将DDPG与双阀液压结构结合,提出数据驱动的PID参数在线优化框架,解决了传统方法依赖模型和专家经验的问题。
- 复合奖励函数设计提升了DRL在液压控制中的收敛效率。
应用价值
- 为注塑机等高精度液压设备提供自适应控制解决方案,提升生产效率(缩短周期时间)和设备可靠性(减少机械磨损)。
- 方法可扩展至其他连续动作空间的机电系统(如机器人、航空航天作动器)。
研究亮点
- 创新结构:辅助伺服阀补偿非对称缸流量失衡,动态响应提升30%。
- 算法融合:DDPG与PID的混合架构兼顾实时性与自适应能力。
- 工程适用性:通过Amesim-Simulink联合仿真验证,接近实际部署条件。
局限与展望
- 需进一步理论证明闭环稳定性;未来将探索多智能体强化学习(MARL)用于多缸协同控制。
(注:全文约2000字,涵盖研究全流程及核心创新点,符合类型a的学术报告要求。)