分享自:

多智能体系统层级预定义时间最优容错控制

期刊:控制与决策DOI:10.13195/j.kzyjc.2025.0818

本研究由福州大学电气工程与自动化学院及5G+工业互联网研究院的刘尚坤、谢俊江、黄景丽、黄捷等研究者共同完成。相关研究成果以“多智能体系统层级预定义时间最优容错控制”为题,发表于《控制与决策》期刊2026年第41卷第5期。

研究的学术背景

本研究隶属于自动控制理论与人工智能的交叉领域,具体聚焦于多智能体系统(Multi-Agent Systems, MASs)的协同容错控制问题。多智能体系统,如无人机集群、无人艇编队和智能电网,因其分布式、可扩展和鲁棒的优点,已成为现代复杂系统控制的研究焦点。其中,一致性控制是实现多智能体协同作业的核心技术,其目标是使所有跟随智能体的状态通过局部信息交互最终与领导智能体的状态趋同。

然而,在实际应用中,多智能体系统的可靠运行面临两大挑战:第一,智能体在复杂恶劣的工作环境中,可能同时遭遇传感器故障(如测量值偏置、漂移或精度下降)和非仿射故障(即故障项与控制输入非线性耦合,不满足仿射形式)。这些故障,尤其是非仿射故障,会通过网络传播,严重威胁整个系统的稳定性,使得传统的基于反步法等设计的容错控制器难以直接应用。第二,对系统收敛性能的更高要求。现有的有限时间控制收敛时间依赖于初始状态,固定时间控制虽能给出上界但难以任意设定。因此,研究能够由用户预先设定收敛时间的“预定义时间控制”(Predefined-time Control),对于提升系统机动性和可控性具有重要意义。此外,在能源受限的实际场景下,如何设计控制策略在完成协同任务的同时最小化能耗(即实现“最优控制”),也符合节能环保的社会发展需求。但求解非线性系统最优控制通常需要解复杂的哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程,解析求解极其困难。

基于上述背景,本研究旨在攻克一个复杂且具有挑战性的问题:设计一种控制框架,使得在同时存在传感器故障和非仿射故障的情况下,多智能体系统不仅能在用户预先设定的任意时间内(预定义时间)稳定收敛,还能实现近似最优的性能(能量消耗最小化),并保证故障不影响健康智能体的运行。为此,研究团队融合了层级控制、强化学习(Reinforcement Learning, RL)和预定义时间稳定性理论,提出了一个创新的层级预定义时间最优容错控制框架。

详细的研究流程与方法

本研究的工作流程围绕所提出的层级控制框架展开,分为两个主要部分:虚拟层实际控制层。研究流程并非线性实验,而是控制算法的系统设计与理论验证。研究对象是一个由6个跟随智能体组成的非线性多智能体系统仿真模型。

第一部分:虚拟层 – 分布式最优一致性跟踪控制器设计 虚拟层的核心任务是为健康的、未发生故障的理想多智能体系统(公式1)设计一个分布式最优跟踪控制器,生成一条期望的最优轨迹。该层不直接处理故障,其输出作为实际层的跟踪目标,从而在逻辑上隔离了故障的影响。具体流程如下: 1. 自适应状态观测器设计:由于系统存在未知非线性动态 fk,2(x̄k,2),首先为每个智能体设计一个自适应状态观测器(公式6)来估计该未知项。观测器利用径向基函数神经网络(Radial Basis Function Neural Networks, RBFNNs)的万能逼近特性,将未知函数表示为理想权重向量与基函数乘积加上有界逼近误差的形式(公式5)。同时,设计了基于Lyapunov理论的自适应律(公式8)在线更新神经网络权重 ϖ̂k,2。定理1证明了观测误差和权重估计误差是半全局一致最终有界(SGUUB)的。 2. 滑模面与一致性误差构建:定义智能体状态估计值与领导者参考信号之间的跟踪误差 ẑk,i,并设计滑模面 ŝk(公式19)以提升收敛性能。进一步,结合邻居智能体的信息,构造分布式一致性误差 êsk(公式21, 22),该误差融合了自身跟踪误差与邻居协同误差。 3. 基于演员-评论家强化学习的最优控制器设计:这是本研究的核心创新点之一。为了实现能量最小的最优控制,定义了包含一致性误差和控制输入能量的二次型性能指标函数(公式24)。为规避直接求解HJB方程的难题,研究采用了演员-评论家(Actor-Critic)强化学习架构。 * 评论家(Critic):负责评估控制性能,通过一个神经网络(公式34)来逼近最优性能指标函数对一致性误差的梯度 J* k,a。 * 演员(Actor):负责执行控制动作,通过另一个神经网络(公式35)来逼近最优控制律 u* k。 * 学习算法:设计了独特的权重更新律(公式36),使演员和评论家网络在线协同学习,最终输出近似最优的虚拟控制信号 ûk(公式35)。 4. 虚拟层稳定性分析:通过构造一个包含一致性误差和神经网络权重估计误差的复合Lyapunov函数(公式38),并利用代数图论和矩阵性质,在定理2中严格证明了:在合理选择控制参数(条件37)的前提下,所设计的虚拟层闭环系统中所有信号均为半全局一致最终有界,滑模变量能收敛到原点附近的小邻域内,从而保证了多智能体系统状态能有效跟踪领导者并实现近似最优性能。

第二部分:实际控制层 – 自适应模糊预定义时间容错跟踪控制器设计 实际层的任务是根据虚拟层生成的最优期望轨迹 y_dk,为每个可能发生故障的真实智能体(公式2)设计一个分散式控制器,使其输出 y_fk 能在预定义时间内跟踪上期望轨迹。这一层直接处理传感器故障和非仿射故障。 1. 坐标变换与问题转化:定义实际输出与期望轨迹之间的跟踪误差 ζk,1,并引入新的状态变量 ζk,2(公式49, 50),将跟踪控制问题转化为误差系统的镇定问题。 2. 自适应模糊控制器设计:采用反步法(Backstepping)技术,分两步设计虚拟控制律 αk,1 和实际控制律 u_fk。 * 未知非线性逼近:系统中由故障和动态耦合产生的未知复合非线性项 hk,i,使用I型模糊逻辑系统(Type-I Fuzzy Logic Systems)进行逼近(引理4)。 * 预定义时间稳定结构:控制律的核心设计为具有预定义时间收敛特性的形式(公式58, 59)。其中,关键项 ϑk,i(公式60)包含了误差的幂次项和一个精心设计的时变增益 γ1γ1 = 2^(2c2) π c2 / (c1 T)),这里 T 就是用户可以预先设定的收敛时间。这种设计直接关联到预定义时间稳定性引理(引理1)。 * 参数自适应律:为模糊逻辑系统的权重上界估计 θ̂k,i 设计了自适应更新律(公式61),该更新律同样包含了预定义时间稳定项,以确保参数估计也能快速收敛。 3. 实际层稳定性与预定义时间收敛性证明:这是本研究另一个核心理论贡献。通过构造分步的Lyapunov函数(公式53, 54),并巧妙运用杨氏不等式、Jesen不等式以及引理5、6、7等数学工具,将Lyapunov函数导数的上界逐步化简为预定义时间稳定性引理要求的形式(公式73)。在定理3中最终严格证明:对于任何有界初始条件,在所设计的控制器作用下,跟踪误差 ζk,1 能在用户设定的预定义时间 T 内收敛到一个紧集内,该集合的大小可通过控制器参数调节。收敛时间 T 完全独立于系统初始状态和参数,实现了真正的“预定义时间”控制。

仿真实证 为验证理论的有效性,研究对包含6个智能体的系统进行了数值仿真。仿真分为两部分: 1. 虚拟层仿真:设置了不同的系统非线性参数,并构建了特定的通信拓扑。结果表明,所有跟随智能体的状态 x_k,1x_k,2 都能很好地跟踪领导者的参考轨迹 ξ1ξ2(图2,图3)。演员、评论家和观测器的自适应权重 ϖ̂k,aϖ̂k,cϖ̂k,2 均能快速收敛并保持有界(图4-6),跟踪误差 z_k,1z_k,2 很小(图7),证实了虚拟层生成最优轨迹的有效性。 2. 实际层仿真:设置了复杂的故障场景:智能体1、2无故障;智能体3仅发生传感器故障(t=8s后输出增加固定偏置0.7);智能体4仅发生非仿射故障(t=11s后激活);智能体5和6同时发生两种故障。将预定义时间设定为 T=1s。仿真结果(图8-11)清晰显示:尽管在t=8s和t=11s相继引入故障,所有智能体的实际输出均在预先设定的1秒时间内迅速重新收敛并紧密跟踪虚拟层提供的最优期望轨迹。图9的局部放大图直观展示了“未跟踪→在预定义时间T内进入邻域→后续稳态”的完整过程。图10的跟踪误差曲线和图11的控制输入曲线进一步证实了系统在多种并发故障下,仍能保持预定义时间收敛性能和稳定的控制行为。

研究结论与价值

本研究成功提出并验证了一个层级预定义时间最优容错控制框架,为解决存在传感器与非仿射复合故障的多智能体系统协同控制问题提供了系统性的解决方案。

科学价值体现在:1) 理论创新:首次将预定义时间控制、强化学习最优控制与针对非仿射故障的容错控制三者有机结合在一个统一的层级框架中,并给出了严格的稳定性证明,特别是实现了跟踪误差在用户任意预设时间内的收敛,突破了收敛时间对初始条件的依赖。2) 方法创新:设计了基于演员-评论家结构的分布式强化学习算法,有效解决了多智能体系统非线性最优控制中HJB方程求解难的问题;设计了新型的自适应模糊预定义时间容错控制器,能够处理控制输入与非仿射故障耦合的难题。

应用价值在于:该控制框架具有高度的可靠性实用性。层级结构有效隔离了故障,防止其通过网络扩散;预定义时间特性使系统收敛时间完全由设计者掌握,极大提升了系统在紧急任务(如故障恢复、快速机动)中的可预测性和可控性;最优控制特性有助于在长期任务中节省能源。因此,该研究成果可广泛应用于对可靠性、快速性和能效有严格要求的无人系统集群控制,如故障情况下的无人机快速重组编队、智能电网分布式电源的 resilient 协调等。

研究的亮点

  1. 问题复杂性与解决方案的综合性:同时处理了传感器故障非仿射故障预定义时间收敛分布式最优控制四大挑战,研究问题具有显著的复杂性和实际意义。
  2. 层级框架的巧妙性:虚拟层与实际层分离的设计,在逻辑上实现了“目标生成”与“故障处理”的解耦,既保证了整体性能的最优性,又增强了系统对故障的鲁棒性和安全性。
  3. 预定义时间收敛的可操作性:收敛时间 T 作为控制器的一个明确参数,可由工程师根据任务需求直接设定,并得到理论保证,极大提升了方法的工程友好度。
  4. 算法融合的创新性:将强化学习(演员-评论家)用于解决多智能体分布式最优一致性问题,并与自适应模糊控制、滑模控制相结合,为复杂非线性系统智能控制提供了新思路。

其他有价值的要点

研究中对于故障类型的建模较为全面(注1),涵盖了部分失效、固定偏差、漂移和精度下降等多种典型传感器故障模式,并考虑了从缓变到突变的非仿射故障(注2),这使得所提出的方法具有更广泛的适用性。仿真部分精心设计的对比实验(不同智能体设置不同类型故障),充分展示了所提控制器在多种并发故障工况下的卓越性能。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com