本研究《基于滚动分布式鲁棒微分博弈的多智能体编队避碰控制》由薛文艳(广东海洋大学机械与能源工程学院;福州大学电气工程与自动化学院)与黄捷(福州大学电气工程与自动化学院;福州大学5G+工业互联网研究院)共同完成,于2026年发表在期刊《控制理论与应用》(Control Theory & Applications)第43卷第4期上。
本研究属于自动控制、人工智能和博弈论交叉的科学领域,具体聚焦于多智能体系统(Multi-Agent Systems, MASs)的协同控制问题。多智能体编队控制在诸如水下探测、无人机集群灯光表演和协同围捕等工业和军事领域具有广泛的应用前景。然而,在实际应用中,智能体通常面临着复杂且未知的环境挑战:首先,智能体的通信能力有限,无法获取全局状态信息,必须依赖局部邻居信息进行决策(即分布式控制问题)。其次,环境中存在静态或动态的未知障碍物,对编队的安全运行构成威胁。第三,外部不确定干扰(如风扰、通信噪声)会严重影响智能体的运动性能和编队稳定性。
现有的方法在处理这些问题时存在各自的局限性:一些流行的分布式微分博弈方法忽略了外部干扰的影响,导致系统鲁棒性差;另一些方法虽然考虑了干扰(如分布式鲁棒微分博弈, Distributed Robust Differential Game, DRDG),但其策略仅基于当前时刻的局部信息,在面对突发障碍物时容易使智能体陷入“死锁”(即因路径规划冲突而无法移动)状态;还有一些滚动优化方法未同时考虑干扰和避碰约束,适应性不足。
因此,本研究旨在解决一个更具挑战性和实用性的问题:在通信受限、存在未知障碍物和外部干扰的复杂环境下,如何设计一种分布式控制策略,使得多智能体系统能够鲁棒、安全地实现期望的编队队形。 具体目标包括:1)提升系统对外部干扰的鲁棒性;2)确保编队过程中智能体之间以及智能体与障碍物之间的避碰安全性;3)通过预测未来状态信息来减少死锁风险,增强对未知环境的适应能力。
本研究提出了一种名为“滚动分布式鲁棒微分博弈”(Receding Distributed Robust Differential Game, R-DRDG)的新方法。其核心工作流程可以概括为以下几个关键步骤:
步骤一:问题建模与博弈框架构建 1. 系统建模:将每个智能体建模为一个动力学系统(公式(1)),其状态(如位置)变化受自身控制输入和外部有界干扰的共同影响。整个多智能体系统的动态由所有智能体的方程集合描述(公式(3))。 2. 通信拓扑:假设智能体之间的通信网络是一个固定的有向连通图,每个智能体只能与其“邻居”交换信息。 3. 编队目标:定义状态误差(公式(4)),当所有智能体的状态误差趋于零时,即实现了期望的相对编队队形(公式(5))。 4. 博弈框架转换:将分布式编队避碰控制问题(DFCP)转化为一个非合作微分博弈问题。在这个博弈中,每个智能体被视为一个“理性参与者”,其目标是优化自己的性能指标。关键创新在于,将外部干扰视为一个“虚拟的恶意参与者”,它试图最大化每个智能体的控制成本。每个智能体需要基于局部信息,优化在最坏干扰情况下的自身性能指标。
步骤二:设计性能指标与求解开环鲁棒纳什均衡 1. 设计滚动成本函数:为每个智能体设计一个滚动时域内的性能指标函数(公式(9))。该函数包含两部分:终端成本(惩罚最终状态与期望编队状态的偏差)和过程成本(包含控制能量成本与干扰能量成本,两者符号相反)。通过最小化该函数(即最小化自身控制成本同时最大化干扰成本),智能体可以找到在干扰存在下的最优控制策略。 2. 理论求解开环鲁棒纳什均衡(Local Robust Nash Equilibrium, LR-NE):在博弈论中,纳什均衡是所有参与者策略的最优稳定点。本研究首先从理论上推导了开环LR-NE的解析解(定理1,公式(10))。该解的存在性和唯一性得到了证明。然而,这个解依赖于所有智能体的全局状态信息,这在分布式通信约束下是无法直接获取的。
步骤三:设计分布式终端状态估计器与构造近似解 1. 核心挑战:上一步得到的理论解(公式(10))需要全局状态x(t_k)。但通过数学变换,可以将其等价转化为仅依赖自身和邻居的终端(最终)状态 x_i(t_f) 的形式(公式(11))。问题转化为如何分布式地估计出这些终端状态。 2. 设计分布式估计器:为解决上述问题,本研究设计了一个分布式终端状态估计器(定理2,公式(12))。每个智能体运行这个估计器,它利用自身当前状态、邻居共享的终端状态估计值以及编队期望信息,动态更新自己对自身终端状态的估计值 \hat{x}_{i\bar{k}}。 3. 构造近似开环LR-NE策略:利用估计出的终端状态 \hat{x}_{i\bar{k}} 代替真实终端状态 x_i(t_f),代入公式(11)的结构中,即可得到仅依赖局部交互信息的近似开环LR-NE策略(公式(13))。该策略使得智能体在仅有邻居信息的情况下也能进行计算。 4. 证明近似解的收敛性:这是本研究的重要理论贡献。研究证明了(定理2证明),由分布式估计器产生的近似策略 \hat{u}_{i\bar{k}}^* 与理论上真实的全局信息策略 u_{i\bar{k}}^* 之间的偏差是指数收敛的。这意味着随着估计过程的进行,分布式计算出的策略会无限逼近理想的最优策略。 5. 分析近似解的均衡性能:进一步地,研究分析了这种近似解在纳什均衡意义上的“近似”程度。通过推导出一个误差上界 ε_k(定理3,公式(18)),从数学上量化了由于使用估计值而非真实值所带来的性能损失,理论上保证了该近似解的有效性。
步骤四:引入避碰约束与稳定性分析 1. 设计避碰势函数:为了实现安全避碰,在已得到的近似开环LR-NE控制律中引入一个额外的避碰惩罚项。该惩罚项由一个势函数(公式(22))产生。当智能体进入障碍物或其他智能体的“感应区域”(但尚未进入“碰撞区域”)时,势函数会产生一个排斥力,该排斥力指向使智能体远离障碍物的方向(公式(23))。 2. 合成最终控制律:将近似LR-NE控制律(用于实现鲁棒编队)与避碰势函数的负梯度(用于安全避碰)相结合,形成最终的控制输入(公式(24))。这样,每个智能体的运动由“走向期望编队位置”和“避开周围障碍物”两个目标共同驱动。 3. 证明系统稳定性:通过构造一个包含编队误差和避碰势能的李雅普诺夫(Lyapunov)函数(公式(25)),并分析其沿系统轨迹的时间导数,研究从理论上证明了(定理4): * 在多智能体系统使用所提控制律(公式(24))的情况下。 * 当智能体与障碍物或其他智能体距离大于安全距离时,系统能渐近稳定到期望的编队状态(即状态误差趋于零)。 * 在运动过程中,智能体与障碍物/其他智能体之间的距离不会小于安全距离,从而保证了系统的安全性。
步骤五:滚动优化机制实现反馈策略 1. 从开环到反馈:前述步骤得到的近似LR-NE策略是“开环”的,即在每个采样时刻 t_k 计算出一个固定的未来控制序列。这对于动态未知环境(如突然出现的障碍物)适应性不强。 2. 滚动优化实施:研究引入了滚动时域控制(Receding Horizon Control) 思想。具体流程是:在每个采样时刻 t_k,智能体以当前状态为初始条件,基于分布式估计器和上述方法,求解一个有限时域 [t_k, t_f] 内的开环近似LR-NE控制序列。但只执行该序列中的第一个控制量。到下一个采样时刻 t_{k+1},系统测量到新的状态(已受之前控制量和环境干扰影响),再以这个新状态为起点,重新求解一个新的有限时域优化问题,并再次执行新序列的第一个控制量。如此反复循环。 3. 优势:这种滚动优化机制实质上合成了一个反馈形式的鲁棒纳什策略。它使智能体能够基于最新的局部状态信息,不断重新规划未来路径。通过预测未来一段时间的状态(在优化问题中体现),智能体可以提前“看到”并规避潜在的碰撞风险,从而有效减少了传统局部反馈策略容易导致的“死锁”现象,显著提升了在未知动态环境中的安全性能和适应能力。
本研究通过理论证明和数值仿真两个层面验证了所提方法的有效性。
理论结果: 1. 定理1:证明了在给定系统模型和性能指标下,开环的局部鲁棒纳什均衡(LR-NE)解存在且唯一,并给出了其依赖于全局信息的解析形式。 2. 定理2:设计了分布式终端状态估计器,并基于此构造了仅需邻居信息的近似开环LR-NE策略。严格证明了该近似策略与真实全局策略的偏差是指数收敛的。 3. 定理3:定量分析了近似解与精确纳什均衡解之间的性能差异,给出了成本函数误差的上界 ε_k,为近似解的性能提供了理论保障。 4. 定理4:证明了在引入避碰惩罚项后,整个多智能体系统在所提控制律下是稳定的,能够无碰撞地实现期望编队。
仿真验证结果: 研究进行了两组对比仿真实验,以验证R-DRDG方法的优越性。
第一组:鲁棒性验证(与RDGG方法对比) * 对比对象:与文献[12]的滚动分布式微分博弈(RDDG)方法(在其成本函数中不考虑干扰)进行对比。 * 场景:3个智能体在存在已知和未知障碍物的环境中编队。 * 结果: * 编队达成:两种方法最终都能使智能体形成期望的三角形编队。 * 避碰性能:RDDG方法下,智能体A2在躲避未知障碍物O2时,与障碍物的最小距离小于设定的安全距离(图4),存在碰撞风险。而R-DRDG方法下,所有智能体与障碍物的距离均大于安全距离。 * 收敛精度:两种方法都能使系统的整体状态误差趋于零(图5)。但局部放大图显示,R-DRDG的最终收敛误差更小。这是因为R-DRDG通过优化最坏情况下的性能指标,有效抑制了干扰的影响,从而达到了更精确的编队。 * 结论:该实验验证了R-DRDG方法通过将干扰视为恶意参与者进行优化,显著提升了系统的鲁棒性,能更好地消解干扰,实现更安全、更精确的编队。
第二组:安全性验证(与DRDG方法对比) * 对比对象:与文献[11]的分布式鲁棒微分博弈(DRDG)方法进行对比。DRDG也是局部反馈策略,但未采用滚动优化。 * 场景:8个智能体在包含多个未知障碍物的更复杂环境中编队。 * 结果: * 死锁现象:DRDG方法下,智能体A8在感应到未知障碍物O1时,由于仅根据当前局部信息决策,陷入了死锁状态(图7局部放大图),停滞在障碍物附近无法前进,且与障碍物距离小于安全距离(图9)。 * 成功避障:R-DRDG方法下,所有智能体,包括A8,均成功避开了所有未知障碍物,顺利到达目标编队位置(图8)。智能体与所有障碍物的最小距离均大于安全距离(图10)。 * 原因分析:R-DRDG方法在每个滚动窗口内基于对未来状态的预测进行博弈,使智能体能够提前“预见”并规划绕开障碍物,从而避免了因短视决策而陷入的局部死锁。 * 结论:该实验验证了R-DRDG方法通过滚动优化机制,显著提升了系统在未知环境中的安全性和适应性,有效降低了死锁风险。
本研究成功提出并验证了一种名为“滚动分布式鲁棒微分博弈”(R-DRDG)的多智能体编队避碰控制方法。其主要结论是:该方法能够有效地在通信受限、存在外部干扰和未知障碍物的复杂环境下,引导多智能体系统实现鲁棒、安全、无死锁的协同编队。
科学价值: 1. 理论创新:将干扰建模为虚拟恶意参与者并集成到滚动分布式微分博弈框架中,为处理多智能体系统在不确定环境下的协同控制问题提供了新的理论思路。所设计的分布式终端状态估计器及对近似纳什均衡收敛性的严格证明,丰富了分布式博弈控制的理论基础。 2. 方法融合:创新性地将鲁棒微分博弈(处理干扰)、势函数法(处理避碰)和滚动时域控制(处理未知动态、避免死锁)三者有机结合,形成了一套系统性的解决方案,克服了单一方法的局限性。 3. 性能保证:不仅给出了控制算法的构造方法,还从数学上严格证明了算法的收敛性、近似均衡的性能界以及整个闭环系统的稳定性,保证了方法的可靠性和可解释性。
应用价值: 该方法具有很强的工程应用前景,尤其适用于那些需要在复杂、对抗性、非结构化环境中执行协同任务的无人系统集群,例如: * 无人机组群:在强风干扰、城市楼宇间或森林等存在未知障碍物的环境中进行侦查、物资投递或编队飞行表演。 * 水下机器人编队:在存在洋流干扰和未知水下地形、障碍物的环境中进行协同探测或作业。 * 自动驾驶车队:在存在随机干扰(如侧风、路面湿滑)和其他未知障碍物的交通场景中实现安全、紧凑的车队协同驾驶。
文章在最后展望部分指出了未来可能的研究方向:一是考虑如何设计适应大规模多智能体系统的多层网络分布式状态估计器,以提升算法的可扩展性;二是考虑引入事件触发机制,以减少滚动优化过程中频繁通信和计算带来的资源消耗,解决实时性问题。这为后续研究提供了有价值的思路。