分享自:

基于无模型原则的分层学习控制框架用于跟踪任务

期刊:2019 23rd international conference on system theory, control and computing (icstcc)

这篇文档属于类型a,即报告一项原创性研究的学术论文。以下是详细的学术报告内容:


作者及机构

本研究由Mircea-Bogdan Radac(罗马尼亚蒂米什瓦拉理工大学AAI系)、Vlad Negru(同机构)和Radu-Emil Precup(同机构)合作完成,发表于2019年第23届国际系统理论、控制与计算会议(ICSTCC),会议论文集由IEEE出版。

学术背景

研究领域为模型无关的智能控制(model-free control),聚焦于分层学习控制框架(hierarchical learning control framework)在多自由度非线性系统轨迹跟踪任务中的应用。生物神经运动学习的研究表明,智能系统通过“基元(primitive-based learning)”实现任务泛化,而传统控制技术缺乏这种认知能力。因此,作者旨在开发一种无需重新学习的框架,将优化跟踪行为泛化至新轨迹,其核心挑战在于如何结合迭代学习控制(Iterative Learning Control, ILC)强化学习(Reinforcement Learning)虚拟参考反馈整定(Virtual Reference Feedback Tuning, VRFT)等方法,在无模型条件下实现高效控制。

研究流程

研究分为三个主要阶段,对象为双转子空气动力学定位系统(Two Rotor Aerodynamical System, TRAS),该系统具有高度非线性、多变量耦合特性。

1. 底层线性化控制

  • 目标:通过输出参考模型(Output Reference Model, ORM)实现间接反馈线性化。
  • 方法
    • VRFT初始控制器设计:使用少量输入-输出(I/O)数据设计线性多变量控制器,最小化无限时域成本函数(式3)。
    • 强化学习优化:基于IMFAVI(迭代模型无关近似值迭代)算法训练神经网络控制器(C-NN)和Q函数近似器(Q-NN),利用Levenberg-Marquardt算法优化权重,提升ORM跟踪性能。结果显示,优化后跟踪误差较VRFT控制器降低100倍(性能指标从2.2713降至0.0221)。
  • 创新点:通过虚拟状态重构(式5)解决过程状态不可测问题,仅依赖I/O数据实现全观测。

2. 基元学习(Primitive Learning)

  • 目标:通过模型无关ILC(MFILC)学习参考输入-控制输出基元对。
  • 方法
    • 基元定义:针对两段不同期望轨迹(高斯衰减函数),初始化参考输入为期望输出,通过扰动梯度提取(Perturbation-based Gradient Extraction)辨识系统脉冲响应矩阵(式9)。
    • 迭代优化:采用遗传算法计算步长矩阵(式10),确保单调收敛。30次迭代后,基元输出误差显著降低(如图4、图5),且成功解耦控制通道。
  • 关键问题:基元数量与延迟副本数影响分解精度,需权衡回归问题规模与泛化能力。

3. 新轨迹泛化验证

  • 目标:验证基元库对新轨迹的泛化能力。
  • 方法
    • 轨迹分解与重构:将新轨迹(式11)扩展为零填充序列,通过400组随机延迟基元副本的最小二乘分解生成最优参考输入。
    • 性能对比:与直接跟踪期望输出的方法相比,基元重构的参考输入显著提升跟踪精度(图6),高频分量被低通系统自然滤除。

主要结果

  1. 底层线性化:IMFAVI控制器使ORM跟踪误差降低至VRFT的1%,耦合干扰抑制效果显著(图3中垂直虚线标注区域)。
  2. 基元学习:MFILC学习的两组基元均实现高精度跟踪(图4、图5),且输入基元的高频特性未影响系统稳定性。
  3. 泛化能力:新轨迹跟踪误差减少,证明基元分解-重构机制的有效性,即使系统存在轻微非线性(图6)。

结论与价值

  1. 科学价值:提出首个结合VRFT、强化学习和MFILC的分层框架,证实了生物启发控制策略在工程中的可行性。
  2. 应用价值:为无人机、机器人等高维非线性系统的轨迹跟踪提供了无需重新学习的解决方案,显著降低计算成本。
  3. 认知意义:通过“基元库”模拟人类运动学习的泛化能力,为智能控制系统的认知化设计开辟新路径。

研究亮点

  • 方法创新:IMFAVI算法首次实现仅依赖I/O数据的ORM跟踪控制;MFILC的扰动梯度提取无需系统模型。
  • 理论突破:验证了LTI假设下基元分解的泛化性,并量化了非线性对性能的影响边界。
  • 工程验证:在TRAS系统上的实验全面覆盖耦合、非线性及扰动场景,结果具有高可信度。

其他发现

  • 数据预处理:研究指出,若I/O数据零中心化,可省略归一化步骤,简化训练流程。
  • 基元选择:平滑期望轨迹可放松基元数量要求,但最优基元库构建仍是开放问题。

此报告全面覆盖了研究的理论、方法、实验及价值,适合学术界与工业界研究者参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com