基于强化学习的近最优分层运动控制方法：设计与实验

分享自：
基于强化学习的近最优分层运动控制方法：设计与实验

工程学
自动化
人工智能
信息科学
机械
期刊:isa transactionsDOI:10.1016/j.isatra.2022.02.034
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，是一篇关于基于强化学习的近最优分层运动控制方法的原创研究论文。以下是针对该研究的详细学术报告：
一、作者与发表信息本研究由Zhi-Chang Qin（天津理工大学机械工程学院、中国地震局地震工程模拟与抗震设防重点实验室）、Hai-Tao Zhu（天津大学水利工程仿真与安全国家重点实验室）、Shou-Jun Wang和Ying Xin（天津理工大学机械工程学院）、Jian-Qiao Sun（加州大学默塞德分校工程学院）合作完成，发表于ISA Transactions期刊第129卷（2022年），页码673–683。
二、学术背景研究领域与动机该研究属于数据驱动的模型无关最优控制（model-free optimal control）领域，聚焦于强化学习（Reinforcement Learning, RL）在机械系统运动控制中的应用。传统最优控制依赖精确的系统动力学模型，而实际系统中模型不确定性、传感器噪声和外部干扰使得模型构建困难。此外，非线性系统的Hamilton-Jacobi-Bellman（HJB）方程求解复杂，限制了经典方法的实用性。
研究目标提出一种结合预稳定机制（pre-stabilized mechanism）和强化学习模型无关最优控制（RL-based MFOC）的分层控制框架，解决开环不稳定系统的数据驱动控制问题，并通过实验验证其有效性。
三、研究流程与方法1. 预稳定机制设计问题背景：RL-based MFOC需系统在开环稳定条件下生成有效数据，但实际系统（如欠驱动机械系统）可能开环不稳定。
 
解决方案：引入预稳定控制器（如PD反馈控制）使系统稳定，形成增广系统（augmented system）。例如，在旋转伺服电机实验中，设计PD控制器 ( u_a(t) = 2.575x_1 + 0.4284x_2 ) 稳定系统。
 
2. 数据采集与激励信号实验设计：通过激励信号 ( u_p(t) )（如多频正弦组合）驱动增广系统，采集输入-输出数据（如位置、速度）。
 
数据规模：伺服电机实验采集701组数据点（采样时间 ( \Delta t = 0.001s )），柔性关节实验采集500组数据点。
 
3. 基于Actor-Critic神经网络的RL控制网络结构：
 Critic网络：近似值函数 ( V(x) )，隐藏层神经元为状态变量的非线性组合（如 ( [x_1^2, x_2^2, x_1x_2] )）。
 
Actor网络：近似控制策略 ( u_c(t) )，神经元为系统状态（如 ( [x_1, x_2] )）。
 
训练方法：最小二乘法迭代更新权重（式22），终止条件为权重变化 ( | \bar{w}_{k+1} - \bar{w}_k | < 10^{-8} )。
 
4. 分层控制器集成最终控制输入为预稳定控制与RL最优控制之和：( u(t) = u_a(t) + u_c(t) )。
 
四、主要结果1. 伺服电机位置控制实验性能指标：跟踪方波信号时，位置响应超调小、峰值时间短（图4），控制电压 ( u(t) ) 平滑（图5）。
 
数据量影响：训练数据集大小 ( q ) 对控制性能影响有限（图6），当 ( q \geq 450 ) 时权重收敛。
 
2. 柔性关节系统实验跟踪性能：( \theta ) 通道稳态误差小，( \alpha ) 通道振荡快速衰减（图11）。
 
对比实验：与延迟滑模控制（Delay SMC）和多目标最优滑模控制（MOSMC）相比，所提方法在抑制柔性振荡（( j_\alpha = 0.5699 )）和综合性能上更优（表4）。
 
3. 算法鲁棒性模型无关性：无需系统动力学模型，仅依赖输入-输出数据。
 
神经元数量影响：Critic网络神经元数量对Actor网络权重收敛无显著影响（表2）。
 
五、结论与价值科学价值方法创新：首次将预稳定机制与RL-based MFOC结合，扩展了数据驱动控制在开环不稳定系统的应用。
 
实验验证：通过欠驱动机械系统的实时控制实验，证明了分层框架的可行性和鲁棒性。
 
应用价值适用于模型未知或动态变化的复杂系统（如机器人、航空航天器），为工业控制提供了新思路。
 
六、研究亮点预稳定机制：解决了RL-based MFOC在开环不稳定系统中的数据生成难题。
 
数据效率：小规模数据集（( q \approx 500 )）即可实现高性能控制。
 
实验普适性：在旋转伺服电机和柔性关节两类系统中均验证了有效性。
 
七、其他贡献揭示了Critic网络神经元数量与控制性能的弱相关性，为神经网络结构设计提供了实证依据。
 
开源代码未提及，但实验参数（如 ( Q, R ) 矩阵、采样时间）详细公开，可复现性高。
 
此研究为数据驱动控制领域提供了理论创新与工程实践紧密结合的范例，未来可进一步探索在更高维非线性系统中的应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问