关于“拒绝服务攻击下分布式卡尔曼滤波的最优功率调度:一种斯塔克尔伯格博弈策略”的学术研究报告
本研究由孙元成、高奎、陈立伟、杨飞升和姚丽娜共同完成,其中孙元成、高奎、陈立伟和姚丽娜来自郑州大学电气与信息工程学院,杨飞升来自西北工业大学自动化学院。他们的研究工作以论文形式发表在国际学术期刊 International Journal of Systems Science 上,该论文于2024年12月10日在线发表,并收录于该期刊2025年第56卷第9期2067至2081页。
研究的学术背景 本研究属于信息物理系统(Cyber-Physical Systems, CPSs)安全领域,具体聚焦于分布式状态估计场景下的网络安全防护与攻击对抗问题。随着网络和计算技术的飞速发展,信息物理系统已成为智能交通、医疗、自动化制造和航空航天等现代技术与应用的基石。在大型CPS(如智慧城市、分布式智能电网)中,采用分布式无线传感器网络(WSN)进行状态感知与融合成为一种重要架构,其核心挑战在于确保分布式信息融合过程的可靠性与安全性。
在共享无线网络环境中,恶意攻击,特别是拒绝服务(Denial-of-Service, DoS)攻击,对CPS的安全构成了严重威胁。DoS攻击旨在阻塞通信信道,破坏数据包的可用性。以往的研究大多从单一方(防御者或攻击者)的角度出发,设计弹性估计算法或最优攻击序列。例如,有研究从传感器角度设计传输调度或弹性量化方案以抵御攻击;也有研究从攻击者角度,基于通信信道衰落特性设计攻击策略或采用斯塔克尔伯格(Stackelberg)博弈方法进行最优攻击资源分配。然而,这些工作要么仅考虑集中式系统(单信道或多信道网络连接到一个估计中心),要么未能全面刻画防御方与攻击方之间的动态交互决策过程。在完全分布式的无线传感器网络中,节点间的通信更为复杂,分布式信道上的干扰与传输策略相互耦合,从全局视角建立攻击与防御的交互模型,并研究双方如何调整其策略以达到各自最优目标,仍然是一个开放性的挑战。
此外,现有基于博弈论的方法(如纳什Q学习)通常假设博弈双方(传感器和攻击者)都知晓全局信息,例如对方的奖励函数和行动空间,这在实际环境中往往难以实现。因此,基于局部观测信息寻找最优策略具有重要的现实意义。
基于上述背景,本研究旨在解决分布式卡尔曼滤波框架下,传感器网络面临基于信干噪比(Signal-to-Interference-plus-Noise Ratio, SINR)的DoS攻击时的最优功率调度问题。具体目标包括:第一,从全局视角分析并建模分布式传感器网络与恶意攻击者之间的交互动态博弈过程;第二,提出一种基于斯塔克尔伯格博弈框架的分布式强化学习算法,使博弈双方能够在缺乏对方全局信息的实际情况下,仅通过局部观测学习到联合最优策略(即斯塔克尔伯格均衡策略)。
研究的详细工作流程 本研究的工作流程可以清晰地分为五个核心步骤:系统建模与问题描述、博弈模型构建、均衡分析与算法设计、仿真验证、以及结论与展望。
第一步:系统建模与问题描述 研究首先构建了分布式卡尔曼滤波的数学模型。假设一个由n个传感器节点组成的强连通有向图网络。系统动力学模型为标准的状态空间方程,过程噪声和观测噪声为零均值高斯白噪声。每个传感器节点运行一致的分布式卡尔曼滤波算法。该算法包括预测、测量更新和本地融合三个步骤。传感器节点不仅计算自身的局部状态估计,还通过通信链路接收邻居节点的估计信息进行融合,以达到整个网络状态估计的一致性。研究假设滤波算法已进入一致稳态,即估计误差协方差收敛到稳态值P*。
随后,研究引入了基于SINR的通信信道模型。传感器节点间传输本地估计信息时,数据包可能因噪声和攻击干扰而丢失。成功的传输概率取决于信干噪比,而SINR本身又是传感器发射功率和攻击者干扰功率的函数。因此,通信成功与否是一个随机过程,其概率由双方功率共同决定。
最后,研究将问题形式化。在网络中,传感器(防御方)的目标是从无限时域功率管理的角度,最小化融合滤波器的均方误差,同时考虑到节能,也希望降低自身发射功耗并增加攻击者的干扰功耗消耗。攻击者(攻击方)则目标相反,旨在通过干扰破坏融合过程,最大化估计误差。双方构成了一个竞争关系。
第二步:博弈模型构建 为了刻画传感器与攻击者之间的动态交互过程,研究将其建模为一个“攻击者-传感器”双人确定性博弈。该博弈定义为元组 <状态集S,传感器行动集P,攻击者行动集W,奖励函数R1和R2,状态转移概率D>。
第三步:均衡分析与算法设计 研究首先指出,在具有完全信息的扩展式博弈中,必然存在纯策略的斯塔克尔伯格均衡。与以往研究中可能出现的混合策略纳什均衡相比,本研究通过定理证明了在无限纯策略集上,混合策略不可能严格优于所有纯策略,这为寻求纯策略斯塔克尔伯格均衡提供了合理性。
接下来,研究的核心创新是提出了一种名为“基于斯塔克尔伯格博弈的分布式分组强化学习算法”。该算法旨在解决传统方法需要全局信息的局限性。算法的关键设计如下: 1. 分布式学习:传感器和攻击者各自独立地与环境交互,基于自身的局部奖励和观测到的对手行动来更新自己的Q值表。他们不需要实时共享奖励信息,这更符合竞争环境的实际场景。 2. 分组与斯塔克尔伯格结构:算法隐含地遵循斯塔克尔伯格博弈的两阶段时序结构。攻击者作为跟随者,对于传感器领导者给定的任何策略p,通过自身的Q学习找到最优反应策略 ͨp。传感器作为领导者,则收集攻击者对所有可能p的最优反应 ͨp,然后从中选择能使自己长期奖励最大化的策略p。最终形成的策略对 (p, ͨp*) 即为斯塔克尔伯格均衡。 3. 无限行动空间扩展:算法不预设有限的、已知的对手行动空间。每个玩家通过实时观测对手的行动,可以不断扩展自己Q表中记录的联合行动空间,从而能够处理更一般的情况。 4. 收敛保证:算法采用了衰减的学习率,并假设每个状态-行动对被无限次访问,这保证了Q值学习的收敛性。收敛后,通过比较Q值即可按照上述两阶段逻辑提取均衡策略。
第四步:仿真验证 研究通过一个具体的数值仿真例子来验证所提模型和算法的有效性。考虑一个包含四个传感器的分布式网络,系统为二维状态模型。设定传感器的行动集为P = {0, 1, 2, 3},攻击者的行动集为W = {0, 1, 2, 3},状态集取前8个可能值。设置相关参数(如噪声功率、折扣因子、学习率衰减公式等)后,进行了长达50,000回合的训练。
研究的主要结论与价值 本研究得出以下主要结论:针对分布式传感器网络在SINR-based DoS攻击下的安全状态估计问题,成功构建了一个双人一般和确定性博弈模型,从全局视角刻画了攻防双方的交互动态。更重要的是,提出了一种创新的分布式强化学习算法,该算法基于斯塔克尔伯格博弈框架,允许博弈双方在仅拥有局部观测信息、且不了解对方奖励和行动空间的情况下,通过自主学习收敛到斯塔克尔伯格均衡策略。仿真实验验证了模型和算法的有效性,展示了在不同系统状态下攻防双方的最优功率调度策略。
本研究的科学价值与应用价值体现在:科学价值方面,1)将斯塔克尔伯格博弈理论引入到完全分布式状态估计的安全问题中,提供了分析此类攻防交互问题的新视角;2)提出了DRLG-Stackelberg这一新型分布式学习算法,为解决信息不对称下的博弈均衡寻找问题提供了有效工具;3)通过理论证明和仿真,表明了在无限行动集上寻求纯策略斯塔克尔伯格均衡的可行性与优势。应用价值方面,该研究为实际分布式CPS(如无人机集群、物联网感知网络)的安全防护设计提供了理论依据和算法参考。系统管理员可以借鉴此框架来设计传感器的自适应发射功率控制策略,以在保证估计精度的同时,有效应对智能攻击并节约能源。
研究的亮点 本研究的亮点突出体现在以下三个方面: 1. 研究视角新颖:首次在完全分布式卡尔曼滤波框架下,从全局视角系统性研究传感器网络与单一DoS攻击者之间的交互动态博弈过程,填补了分布式状态估计安全领域中攻防交互模型研究的空白。 2. 算法创新性强:提出的DRLG-Stackelberg算法巧妙地结合了分布式强化学习和斯塔克尔伯格博弈思想。其“分布式”特性摆脱了对全局信息的依赖;“分组学习”与斯塔克尔伯格结构的结合,使得算法能自然地处理领导者-跟随者关系;能够处理“未知且可无限扩展的行动空间”这一设定,极大地增强了算法的实用性和泛化能力。 3. 策略的优越性与实用性:相较于需要已知有限行动空间和可能产生混合策略的纳什均衡方法,本研究寻求的纯策略斯塔克尔伯格均衡不仅在实践中更易实现,而且通过理论分析证明了其在特定条件下的优越性。所得到的均衡策略为实际系统的功率调度提供了清晰、可执行的操作指南。
其他有价值的内容 论文在引言部分对相关领域的研究工作进行了较为全面的梳理,清晰地指出了从集中式单方防御/攻击研究,到考虑交互的博弈研究,再到本研究所关注的分布式交互博弈这一演进脉络,有助于读者把握该领域的研究进展和本工作的定位。此外,论文在系统建模部分对分布式一致卡尔曼滤波算法和基于SINR的通信模型进行了详细描述,为不熟悉该领域的读者提供了必要的背景知识,增强了论文的自包含性和可读性。作者也坦诚指出了本工作的局限(如仅考虑单个攻击者对全网攻击),并提出了未来可能的研究方向(如考虑多个攻击者或攻击者随机选择路径进行攻击),体现了研究的严谨性和开放性。