异构有向多智能体系统的协作输出调节:一种完全分布式的无模型强化学习框架
异构有向多智能体系统合作输出调节问题研究:基于完全分布式无模型强化学习框架
背景介绍
近年来,分布式控制和优化的研究在智能交通、智能电网、分布式能源系统等领域表现出了广泛的应用前景。这类系统通常需要多个智能体的协作完成特定任务,其中基础性研究课题之一便是合作输出调节问题(Cooperative Output Regulation,简称COR)。该问题旨在通过设计合适的控制协议,使得多智能体系统中的所有智能体都能跟踪参考信号并最终实现零跟踪误差。然而,要解决这类问题,准确获知智能体动态模型的信息通常是现有方法的基本前提,这在现实中由于复杂环境和高度耦合的非线性难以实现,甚至可能导致测量成本过高。
此外,由于多智能体系统的通信网络往往具有方向性(即信息传递非对称性),这进一步加大了研究这一问题的难度。现有方法多集中于无向图结构的研究,而有向图中的多智能体系统往往更加复杂,特别是在模型缺失或信息获取受限的情况下。因此,如何实现在有向异构多智能体系统中,同时满足完全分布式、事件触发机制(Event-Triggered Mechanism,简称ETM)和无模型依赖的控制设计,成为了一个亟待解决的问题。
论文来源
本文题为《Cooperative Output Regulation of Heterogeneous Directed Multi-Agent Systems: A Fully Distributed Model-Free Reinforcement Learning Framework》,作者包括Xiongtao Shi、Yanjie Li(通讯作者)、Chenglong Du(通讯作者)、Huiping Li、Chaoyang Chen与Weihua Gui,分别来自哈尔滨工业大学(深圳)、中南大学、西北工业大学以及湖南科技大学多所机构。本论文发表于《Science China Information Sciences》,2025年2月,第68卷第2期,文章编号是122202。该论文提出了一种基于模型无关强化学习(model-free reinforcement learning)的完全分布式控制框架,尝试解决在动态模型未知、仅可通过局部通信的情况下,有向异构多智能体系统的COR问题。
研究工作流程
1. 研究内容简介
本文研究了两种场景下的COR问题: 1. 场景1:外系统对所有智能体全局可见。在此场景中,作者设计了增强代数Riccati方程(Augmented Algebraic Riccati Equation,简称AARE)并通过无模型强化学习算法求解反馈增益矩阵。 2. 场景2:外系统仅对邻近智能体可见。在此场景下,研究者进一步设计了每个智能体的分布式观测器(observer),并在此基础上提出了基于观测器的自适应事件触发控制协议。
通过这两种场景的深入探讨,研究目标是实现: - 摆脱对系统动态的依赖; - 通过事件触发控制减少通信负载与计算成本; - 在分布式的基础上解决有向图中的协作输出调节问题。
2. 研究流程与算法细节
场景1:外系统全局可见
在这种情况下,研究者为每个智能体构建了内部模型(internal model)并设计了控制协议:
内部模型的构建:
- 通过将外系统状态信息整合至内部模型的状态更新中,引入一个内建反馈增益矩阵。
强化学习求解反馈增益矩阵:
- 作者定义了增强代数Riccati方程(AARE),其求解可直接提供控制协议的反馈增益。
- 引入迭代型无模型强化学习算法,通过输入输出数据在线求取反馈增益矩阵。
在上述流程中,算法的核心公式包括矩阵迭代公式及Lyapunov稳定性分析。同时,提出的强化学习算法通过设计探索噪声与更新准则,保证了反馈增益矩阵逐步收敛至目标值。
场景2:外系统局部可见
为了适应更复杂的局部可见场景,研究者引入了一种完全分布式的事件触发控制框架:
引入分布式观测器:
- 利用外系统状态与局部邻居信息,构建分布式观测器来估计外系统状态。
事件触发机制:
- 设计了一种自适应的事件触发函数,按需激活智能体间的信息共享通信,显著减少通信频率。
- 设计规则为:一旦观测误差达到预设阈值,触发状态更新。
完全分布式控制协议:
- 在不依赖全局Laplacian矩阵的条件下,通过自适应增益及新型图论Lyapunov函数完成控制协议的设计。
理论证明与算法鲁棒性验证:
- 对自适应参数及事件触发频率的收敛性进行了严格分析;
- 通过构造联合系统Lyapunov方程,证明了控制协议的全局渐进稳定性。
3. 仿真实验设计
实验中采用了4个智能体的有向图网络,所有智能体的动态参数均未知。研究者通过两组场景下的仿真实验验证了提出方法的有效性: 1. 基于场景1的实验: - 通过算法1学习得到了接近模型解的反馈增益矩阵。 - 实现了智能体输出与外系统参考信号的快速跟踪。
- 基于场景2的实验:
- 验证了自适应事件触发机制的性能,与传统静态事件触发机制相比,在实现相似控制效果的同时显著减少了通信频率。
- 平均事件触发间隔比静态机制提升了1.5至3倍。
研究结论与意义
1. 主要结论
本文在有向异构多智能体系统的COR问题上取得重要突破。通过构建内部模型与设计无模型强化学习算法,实现了完全分布式控制协议的在线学习,进一步结合自适应事件触发机制,有效避免了全局信息依赖与高频通信的弊端。
2. 学术价值
论文提出的方法不仅在理论上丰富了多智能体系统分布式控制领域的研究成果,也为类似复杂场景下的协作问题提供了普适性解决方案。在应用层面,方法简化了工程实现时对模型信息的依赖,适用于一系列实际问题,如机器人编队控制、无人机群体协作及分布式能源调控等。
3. 工作亮点
- 完全抛弃模型依赖性:强化学习算法充分利用输入输出数据构建反馈,无需准确的动力学模型。
- 多智能体系统与有向图研究:拓展了以往仅适用于无向图的分布式控制场景。
- 创新性事件触发机制:自适应事件触发机制克服了频繁通信造成的资源浪费问题。
展望
未来的研究方向包括进一步研究通信拓扑的动态变化场景,并将本文方法应用于实际多智能体系统,如机器人集群与车辆编队等,以验证其实际可操作性。