多个异构欧拉-拉格朗日系统的分布式聚合博弈算法

分享自：
多个异构欧拉-拉格朗日系统的分布式聚合博弈算法

期刊:automaticaDOI:https://doi.org/10.1016/j.automatica.2018.10.041
多异构欧拉-拉格朗日系统聚合博弈的分布式算法研究
本研究由邓振华（Zhenhua Deng，第一作者兼通讯作者）所在的中南大学信息科学与工程学院与梁舒（Shu Liang）所在的北京科技大学自动化与电气工程学院合作完成。研究论文以题为《Distributed algorithms for aggregative games of multiple heterogeneous Euler–Lagrange systems》发表在控制领域的著名期刊《Automatica》上，于2018年9月18日被接收，并于2018年11月13日在线发表。
一、学术背景与研究目的
本研究的学术领域主要涉及分布式控制、博弈论与多智能体系统的交叉领域，具体聚焦于聚合博弈（aggregative games） 在具有复杂非线性动力学系统中的应用。随着信息物理系统（cyber-physical systems）的发展，越来越多的实际系统（如移动机器人、航天器、自动驾驶车辆）的物理动力学可以用欧拉-拉格朗日（Euler–Lagrange, EL）方程来建模。同时，在诸如电力市场、通信网络等场景中，多个智能体（决策者）的竞争或协作关系可以用博弈论来描述，其中聚合博弈因其能够刻画个体决策对全局“总量”（如市场价格、网络总负载）的依赖而受到广泛关注。
在本文之前，针对静态决策者的聚合博弈分布式纳什均衡（Nash equilibrium）求解算法已有诸多研究。然而，当决策主体不再是简单的计算单元，而是具有复杂EL动力学的物理系统（如机器人集群）时，问题变得更具挑战性。现有的大部分博弈算法无法直接应用于这类系统，因为它们未考虑系统的物理动力学特性。另一方面，关于EL系统的分布式优化或一致性控制的研究，虽然考虑了物理动力学，但未涉及博弈场景。因此，本研究旨在填补这一空白：研究由多个异构非线性EL系统作为玩家的聚合博弈问题，并设计分布式算法，使这些玩家能够自主地寻求博弈的纳什均衡。
本研究的主要目标是：1) 建立具有EL系统动力学的多智能体聚合博弈问题模型；2) 针对EL系统参数已知和参数未知两种情况，分别设计分布式算法；3) 利用李雅普诺夫（Lyapunov）函数等方法，严格分析所提算法的收敛性，证明其在理论上的有效性。
二、研究内容与详细流程
本研究围绕两个核心算法展开，分别对应参数已知和参数未知两种场景。研究遵循了从问题建模、算法设计、理论分析到数值仿真的标准流程。
1. 问题建模与预备知识
首先，论文对聚合博弈模型进行了数学描述。考虑n个玩家，其通信拓扑由无向图描述。每个玩家i的决策变量是qi，其成本函数Ji不仅依赖于自身的决策qi，还依赖于所有玩家决策的某个聚合函数（aggregate function）σ(q)。在本文中，聚合函数定义为σ(q) := (1/n) * Σ φi(qi)，其中φi是线性函数。玩家的目标是通过选择qi来最小化自己的成本函数。纳什均衡定义为一种策略组合，使得任何单方面改变决策的玩家都无法降低其成本。
其次，论文明确了博弈问题满足的假设：通信图是连通的；成本函数关于q连续可微且关于qi是凸的；以及由成本函数梯度等构造的映射φε具有强单调性和Lipschitz连续性。这些是保证纳什均衡存在、唯一以及算法收敛性的关键理论前提。
最后，给出了每个玩家（智能体）的物理动力学模型，即欧拉-拉格朗日方程：Mi(qi)q̈i + Ci(qi, q̇i)q̇i + gi(qi) = τi。其中，Mi是正定惯性矩阵，Ci代表科里奥利力和离心力，gi代表重力项，τi是控制输入。EL系统具有两个关键性质：1) Ṁi - 2Ci是斜对称矩阵；2) 动力学方程可参数化为Mi(qi)x + Ci(qi, q̇i)y + gi(qi) = Yi(qi, q̇i, x, y)ψi，其中Yi是已知的回归矩阵，ψi是包含未知参数的常向量。
研究的核心任务就是为服从上述EL动力学的每个“玩家”设计分布式控制输入τi，使得整个系统的状态q最终收敛到聚合博弈的纳什均衡q*。
2. 参数已知情况下的算法设计与分析（详细流程A）
针对EL系统参数（如Mi, Ci, gi中的参数）完全已知的情况，论文设计了第一个分布式算法。该算法可以理解为由“博弈部分”和“估计部分”两个子模块组成。
算法设计： 对于玩家i，其控制律τi和辅助变量更新律由公式(5a)-(5d)给出。其核心思想是反馈线性化。
控制律 (5a): τi = gi(qi) + Ci(qi, q̇i)q̇i – k Mi(qi) q̇i – Mi(qi) gi(qi, yi)。这一项包含了：gi + Ciq̇i用于抵消EL系统的非线性项；–k Mi q̇i是一个阻尼项，用于引入耗散；–Mi gi(qi, yi)是博弈驱动的项，其中gi(qi, yi)是玩家i成本函数关于自身决策的梯度（基于对聚合值的估计yi）。
估计部分 (5b)-(5d): 由于每个玩家无法直接获取全局聚合值σ(q)，需要通过分布式通信进行估计。yi是玩家i对σ(q)的本地估计，vyi和zi是两个辅助变量，它们通过邻居间的信息交换（∑ aij (yi - yj)等项）来协调所有玩家的估计，最终使所有yi一致并收敛到真实的σ(q*)。这部分算法借鉴了分布式优化和一致性控制的思想。
收敛性分析： 论文将整个闭环系统写成了紧凑形式(7)。首先，通过引理3证明了该系统的平衡点与博弈的纳什均衡点等价。这是连接物理动力学与博弈目标的关键桥梁。接着，在定理1中，通过构造一个精心设计的Lyapunov函数V1，并利用系统的强单调性和图论的性质（特别是拉普拉斯矩阵L的特征值），严格证明了在满足k > θ^2/ω + (1⁄4)λn + 1的条件下，整个系统能够全局指数收敛到纳什均衡。分析过程涉及正交变换将状态分解为一致分量和差异分量，并对Lyapunov函数的时间导数进行放缩，最终证明其负定性，从而保证了指数收敛速率。
3. 参数未知情况下的算法设计与分析（详细流程B）
在实际应用中，EL系统的精确参数往往是未知的。针对这一更具挑战性的情况，论文设计了第二个算法，其核心思想是跟踪控制。
算法设计： 该算法由公式(13a)-(13g)描述。
虚拟参考系统： 首先，根据引理4，论文证明了一个简单的二阶积分器系统（ẍi = ui）在控制器(9)的作用下，其状态xi可以指数收敛到博弈的纳什均衡。这个二阶系统没有复杂的EL动力学，其控制器设计与参数已知算法中的估计部分类似。
跟踪控制器： 然后，为实际的EL系统设计一个控制器，使其状态(qi, q̇i)能够跟踪上虚拟参考系统的状态(xi, ẋi)。定义跟踪误差ei = (q̇i - ẋi) + (qi - xi)，并利用EL系统的参数化线性性质，设计了自适应控制律(13a)和参数更新律(13b)：τi = -ei + Yi ξi， ξ̇i = -Yi^T ei。其中ξi是对未知参数向量ψi的在线估计，Yi是回归矩阵。这个自适应控制器不依赖于系统精确参数，具有鲁棒性。
集成算法： 将虚拟参考系统的博弈控制器(13d)-(13g)与EL系统的跟踪控制器(13a)-(13c)结合，就构成了完整的分布式算法。
收敛性分析： 论文在定理2中证明了该算法的全局渐近收敛性。证明过程分为两步。首先，构建Lyapunov函数V2 = (1⁄2) e^T M(q) e + (1⁄2) φ^T φ（其中φ是参数估计误差），并分析由跟踪误差和参数误差构成的子系统(c.1)。利用EL系统的性质，可以证明V2 ≤ 0，从而e和φ有界，并进一步利用Barbalat引理证明跟踪误差e渐近收敛于零。其次，由于跟踪误差收敛到零，且虚拟参考系统xi收敛到纳什均衡，根据误差定义式(c.2)，可以推导出实际EL系统的状态qi也必然收敛到同一个纳什均衡。
4. 数值仿真验证
为了验证所提两种算法的有效性，论文选取了电力市场中的分布式能源竞价问题作为仿真案例。这是一个典型的聚合博弈场景：每个发电机的成本函数是其发电功率pi的二次函数，而电价p(σ)是总发电功率（聚合值）的线性减函数。发电机的动力学模型被简化为一个三阶的涡轮-发电机EL系统模型。
仿真中设置了6个异构的发电机系统，其参数见表1。通信拓扑为无向环网。在参数已知情况下应用算法(5)，在参数未知（假设控制器不知道精确的Mi, Ci, gi）情况下应用算法(13)。仿真结果（图1和图2）清晰地显示，两种算法都能驱动所有发电机的输出功率pi收敛到博弈的纳什均衡。同时，对比两图可以看出，算法(5)（参数已知）的收敛过程更为平滑，而算法(13)（参数未知、自适应）的输出轨迹存在更多波动，这符合指数收敛（更快、更平稳）与渐近收敛（可能存在超调、振荡）的理论预期差异。仿真结果有效支撑了理论分析。
三、主要研究结果
理论模型建立成功：成功地将具有复杂非线性动力学的异构EL系统模型与聚合博弈框架相结合，形式化地定义了“EL系统玩家的聚合博弈”这一新问题。
两种分布式算法被证明有效： 针对参数已知情况设计的基于反馈线性化的算法(5)，被严格证明能够实现全局指数收敛到纳什均衡。
针对参数未知情况设计的基于跟踪控制和自适应估计的算法(13)，被严格证明能够实现全局渐近收敛到纳什均衡，且不依赖于系统精确参数。
严格的收敛性证明：通过构造不同的Lyapunov函数（V1用于算法(5)，V2用于算法(13)的跟踪部分），并结合聚合博弈的强单调性、图论的代数性质以及EL系统的结构特性，为两种算法的收敛性提供了完整的理论保证。
仿真验证：通过一个贴近实际（电力市场）的数值例子，直观地展示了两种算法均能使具有EL动力学的发电机组收敛到竞价博弈的均衡点，验证了算法的可行性和有效性。
四、研究结论与价值
本研究的结论是：针对由异构非线性EL系统作为玩家的聚合博弈问题，所提出的两种分布式算法能够有效引导系统到达纳什均衡。第一种算法（参数已知）具有指数收敛的优越性能；第二种算法（参数未知）虽然收敛速度稍弱（渐近收敛），但具备参数鲁棒性，更适用于实际工程场景。
本研究的价值体现在： * 科学价值：在理论上拓展了分布式博弈论的研究边界，将其从静态或简单动态决策者推进到具有复杂、非线性、二阶动力学的物理智能体，促进了控制理论、博弈论和多智能体系统三个领域的深度交叉融合。 * 应用价值：为解决信息物理系统中的协同与竞争问题提供了新的工具。例如，在智能电网中协调多个具有动态特性的发电单元，在机器人集群中实现资源竞争或任务分配，或是在多智能体网络中实现具有动力学约束的分布式优化。算法(13)因其对模型不确定性的鲁棒性，在实际工程中具有更广泛的应用潜力。 * 方法论贡献：展示了如何将反馈线性化和自适应跟踪控制等成熟的控制理论与分布式一致性估计和博弈梯度下降等计算框架相结合，为解决“物理动力学+博弈决策”的复合问题提供了一个可借鉴的设计与分析范式。
五、研究亮点
问题新颖性：首次系统性地研究了多个异构EL系统的聚合博弈问题，填补了现有文献的空白，是连接物理动力学系统与博弈决策理论的重要桥梁工作。
算法设计的层次性与针对性：针对同一核心问题，根据系统知识（参数已知/未知）的不同，设计了两种不同技术路径（反馈线性化 vs. 自适应跟踪）的算法，体现了研究的全面性和对实际需求的考量。
严格的收敛性分析：针对非线性和耦合的复杂闭环系统，成功构造了合适的Lyapunov函数，并克服了博弈梯度项、分布式估计项与EL动力学项相互耦合带来的分析困难，给出了清晰且严格的收敛性证明（指数收敛和渐近收敛）。
理论与应用的结合：不仅进行了深入的理论分析，还通过一个具有明确工程背景（电力市场调度）的仿真案例验证了算法的有效性，增强了研究工作的说服力和实用性。
六、其他有价值的内容
论文在引言部分对相关领域的工作进行了简要但清晰的梳理，指出了现有研究（如Gharesifard等人、Koshal等人、Liang等人、Ye和Hu的工作）多集中于静态或简单动态智能体的博弈，而关于EL系统分布式优化的研究（如Deng和Hong、Zhang等人的工作）则未考虑博弈场景，从而明确了本工作的独特定位和创新点。
此外，论文在证明过程中巧妙地运用了正交变换将状态空间分解，以分离出系统的一致模式和差异模式，这是处理具有一致性通信协议的多智能体系统稳定性分析的常用且有效技巧。附录中详细的证明过程也为读者理解复杂的数学推导提供了便利。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问