基于SINR的远程状态估计拒绝服务攻击：博弈论方法

分享自：
基于SINR的远程状态估计拒绝服务攻击：博弈论方法

期刊:IEEE Transactions on Control of Network SystemsDOI:10.1109/TCNS.2016.2549640
基于信干噪比拒绝服务攻击的远程状态估计：一个博弈论方法学术研究报告
本报告旨在向国内研究人员介绍一篇发表于《IEEE Transactions on Control of Network Systems》期刊的原创性研究论文，题为《SINR-Based DoS Attack on Remote State Estimation: A Game-Theoretic Approach》。该研究由来自香港科技大学、帕德博恩大学和乌普萨拉大学的研究团队合作完成，并于2017年9月正式刊出。
一、 研究作者、机构与发表信息 本研究的主要作者包括：香港科技大学的李昱哲（Yuzhe Li， 现为阿尔伯塔大学博士后研究员）和史凌（Ling Shi），帕德博恩大学的Daniel E. Quevedo，以及乌普萨拉大学的Subhrakanti Dey。该研究论文于2016年4月1日在线发表，并于2017年9月出版的《IEEE Transactions on Control of Network Systems》第4卷第3期上正式刊载。
二、 学术背景与研究动机 本研究的核心科学领域是信息物理系统（Cyber-Physical Systems, CPS）的安全与控制。随着CPS在智能电网、智能交通、环境监测等关键基础设施中的深度融合，其安全性至关重要。无线传感器作为CPS的关键组成部分，虽然具有低成本、易部署等优势，但也因其使用的开放性无线网络而更易受到网络安全威胁，尤其是拒绝服务（Denial-of-Service, DoS）攻击。与传统计算机系统不同，依赖实时操作的CPS在DoS攻击下可能导致系统不稳定甚至被破坏，后果严重。
在现有研究中，对DoS攻击的建模通常较为简化（例如，将攻击者和防御者的行为建模为“发送/不发送”或“阻塞/不阻塞”的二元过程）。此外，许多研究侧重于静态的、单方面的安全分析。然而，CPS的动态本质决定了攻击者与防御者（如传感器）在选择行动时，必须考虑对手的可能反应。因此，需要一个能够刻画双方交互决策过程的、更全面的分析框架。博弈论为此提供了天然的工具。同时，实际中的无线传感器通常能量有限，且攻击者的资源也非无限，这引入了功率控制的权衡问题：传感器需要在消耗更多能量以提高链路可靠性（从而改善估计性能）与节省能量以延长寿命之间做出选择；攻击者同样面临类似困境。
基于此背景，本研究旨在解决以下几个关键问题：1) 在基于信干噪比（Signal-to-Interference-plus-Noise Ratio, SINR） 的实际无线网络模型中，研究传感器传输功率与DoS攻击者干扰功率之间的交互影响。2) 将通信成本（能量消耗）与估计性能（误差协方差）整合到一个统一的目标函数中，进行联合分析，而非将两者割裂研究。3) 建立一个动态的马尔可夫博弈（Markov Game） 框架，以建模双方基于过程状态和历史信息的在线交互决策过程，并求解其均衡策略。
三、 研究流程与方法详述 本研究主要包含两个核心部分的研究流程：有限时域下的离线博弈分析，以及无限时域下的在线马尔可夫博弈框架构建与求解。
第一部分：有限时域离线博弈框架（第III节） 此部分扩展了作者团队先前的工作，考虑了多功率等级的情形。 1. 系统建模与问题设定：研究考虑一个标准的离散时间线性时不变（LTI）过程，由配备卡尔曼滤波器的“智能”传感器进行局部状态估计。传感器通过一个存在加性高斯白噪声和恶意干扰的无线信道，将局部估计值发送给远程估计器。信道传输成功与否是一个随机过程，其成功概率（包接收率）由SINR决定，而SINR依赖于传感器的传输功率(p_k)和攻击者的干扰功率(\omega_k)。远程估计器的误差协方差(P_k)根据是否成功接收数据包，按照一个李雅普诺夫算子(H(\cdot))进行递归更新。 2. 目标函数与约束：假设在一个有限时间范围(T)内，传感器和攻击者都有总能量约束（(\sum p_k = \bar{p}), (\sum \omegak = \bar{\omega})）。双方的目标是离线设计整个时间范围内的功率分配策略（序列(\mathbf{p})和(\mathbf{\omega})）。传感器的目标是最小化远程估计器在(T)时间段内的平均估计误差协方差的迹（Trace），而攻击者的目标是最大化该值，构成一个零和博弈。 3. 马尔可夫链分析：为了分析估计误差协方差的动态，研究者构建了一个马尔可夫链模型。该链的状态定义为远程估计器误差协方差(P{k-1})所处的“层级”（例如，(P), (H(P)), (H^2(P)), …）。状态转移概率由当前时刻的包接收率（即(\lambda_k)）决定。通过计算该马尔可夫链的状态概率分布，可以得到任意时刻估计误差协方差的期望值，进而得到总目标函数(J(\mathbf{p}, \mathbf{\omega}))的闭式表达式。 4. 均衡分析：研究从传感器（先最小化自身目标，再考虑攻击者最大化）和攻击者（先最大化自身目标，再考虑传感器最小化）两个角度分别形式化了优化问题。理论上，这对应着斯塔克尔伯格博弈（Stackelberg Game）的两种情景（谁先行动）。研究应用博弈论存在性定理分析指出，由于目标函数关于各自策略并非凹函数，该连续策略集的同时行动博弈可能不存在纯策略纳什均衡，但必然存在混合策略纳什均衡（尽管难以求解和实施）。研究详细阐述了在两种序贯行动（传感器先动或攻击者先动）斯塔克尔伯格博弈下的均衡解特征。
第二部分：无限时域在线马尔可夫博弈框架（第IV节） 此部分是本研究的重点和创新所在，考虑了双方能基于实时信息（如通过确认ACK包获知当前估计误差协方差状态）进行在线决策的场景。 1. 框架建立：将交互过程建模为一个两玩家（传感器、攻击者）马尔可夫博弈。其要素包括： * 状态：(sk = P{k-1})，取自可数无限状态集(\mathcal{S} = {P, H(P), H^2(P), …})。 * 动作：传感器选择传输功率(p_k \in \mathcal{A}_s)，攻击者选择干扰功率(\omega_k \in \mathcal{A}_a)，均为有界连续集（实践中可离散化）。 * 状态转移概率：由公式(26)给出，取决于当前的(p_k, \omega_k)和SINR。 * 回报函数：采用折扣累计回报形式。传感器的单步回报为(r_k = -\text{tr}(\mathbb{E}[P_k]) - \delta_s p_k + \delta_a \omega_k)，其中包含了估计误差惩罚、自身能耗惩罚（系数(\delta_s)）和对攻击者能耗的“奖励”（系数(\deltaa)，意即消耗攻击者能量对传感器有利）。攻击者的回报则为相反数，构成零和博弈。 2. 求解算法——改进的纳什Q学习（Nash Q-Learning）：由于模型参数（如状态转移概率的精确形式）可能未知，或为简化计算，研究采用了无模型强化学习方法。这是本研究的核心方法创新。 * Q值定义：定义了状态-动作对的Q值函数(Q(s, p, \omega))，表示从状态(s)开始，执行动作对((p, \omega))后所能获得的最佳折扣累计回报的期望。 * 贝尔曼最优方程与纳什均衡：最优值函数满足的贝尔曼方程中，涉及在下一状态(s‘)上计算一个单阶段矩阵博弈的纳什均衡值，记为(\text{nash} Q(s’))。 * 学习算法流程：算法初始化所有Q值。在每一个时间步(k)： a. 观察当前状态(s)。 b. 根据当前的Q值表，通过求解一个以(Q(s, \cdot, \cdot))为回报矩阵的零和博弈，为当前状态(s)选择行动（可使用(\epsilon)-贪婪等策略平衡探索与利用）。 c. 执行动作对((p, \omega))，观察到瞬时回报(r)和转移到的下一状态(s‘)。 d. 关键更新步骤：使用以下规则更新对应的Q值： [ Q{k+1}(s, p, \omega) = (1-\alpha_k) Q_k(s, p, \omega) + \alpha_k [ r + \beta \cdot \text{nash} Q_k(s’) ] ] 其中，(\alpha_k)是递减的学习率，(\beta)是折扣因子，(\text{nash} Q_k(s’))是基于当前Q值表(Q_k)在状态(s‘)上计算的矩阵博弈纳什均衡值。 * 算法收敛性：研究引用了定理4.6，指出在满足“每个状态-动作对被无限次访问”和“学习率满足随机逼近条件”时，该纳什Q学习算法能够收敛到最优Q值，从而得到最优策略（纳什均衡策略）。 3. 稳定性分析：研究还简要讨论了在博弈均衡策略下，远程估计过程的稳定性（即估计误差是否在平均意义上有界）。给出了一个基于李雅普诺夫算子谱半径和均衡策略下各状态包接收率的充分性条件。
四、 主要结果详述 1. 有限时域离线博弈结果：研究通过理论推导明确指出，在传感器与攻击者同时行动、且拥有连续功率选择的情况下，纯策略纳什均衡并不总是存在。这揭示了此类安全对抗问题的内在复杂性。然而，当行动顺序确定时（斯塔克尔伯格博弈），均衡解是明确且可分析的。研究给出了从不同参与者视角出发的优化问题形式，并指出(J_s^* \geq J_a^*)，这意味着后行动者具有优势（信息优势），这符合博弈论的直观。 2. 无限时域在线学习与仿真结果：研究通过数值仿真验证了所提马尔可夫博弈框架和纳什Q学习算法的有效性。 * 无攻击者场景（纯MDP）：首先展示了传感器单独使用Q学习算法收敛到最优功率策略的过程。仿真中设定功率等级为6级，状态集进行截断处理。经过大量迭代后，Q值收敛。结果显示：传感器的最优策略具有状态依赖性——当远程估计误差协方差较小时（状态好），传感器选择较低的传输功率以节能；当误差协方差增大时（状态差），传感器倾向于选择更高的功率以提高包到达率、改善估计性能。这验证了算法能学习到符合直觉的智能策略。 * 存在攻击者场景（马尔可夫博弈）：在传感器和攻击者均参与的情况下，应用纳什Q学习算法。仿真中双方各有4个功率等级。学习过程显示：在初始阶段，双方策略混合程度较高（探索），随着学习进行，策略逐渐收敛。最终结果：在某些状态下（例如状态(P)），博弈收敛到了一个纯策略纳什均衡（传感器固定选择功率等级1）。这表明在特定条件下，最优对抗策略可能是确定性的。仿真还通过调整攻击者的能量代价权重(\delta_a)，模拟了攻击者资源充裕的情况。一个重要发现是：当攻击者能量预算占优（(\delta_a)很小时），其均衡干扰策略足以将包接收率降低到某个临界值以下，导致状态估计过程发散（估计误差指数增长）。这直观地展示了强大DoS攻击对CPS稳定性的实际破坏力。
五、 结论与研究价值 本研究得出以下核心结论：针对基于SINR的无线CPS远程状态估计中的DoS攻击防御问题，博弈论提供了一个强大的分析框架。在离线设定下，需谨慎处理均衡存在性问题，序贯博弈模型更具操作性。在在线设定下，建立的马尔可夫博弈框架能有效刻画动态对抗过程，而所提出的改进纳什Q学习算法作为一种无模型强化学习方法，能够在无需知道系统精确模型的情况下，自主学习并收敛到最优抗干扰传输策略和最优攻击策略。
研究的科学价值体现在：1) 将SINR模型引入CPS安全博弈分析，使通信模型更贴近实际。2) 创新性地将估计性能与能量消耗整合到统一的博弈目标函数中。3) 成功构建了用于描述在线交互决策的无限时域马尔可夫博弈模型，并为其求解提供了可行的强化学习算法。4) 通过理论分析和仿真，揭示了此类安全博弈中均衡的特性、后动者优势以及攻击强度对系统稳定性的临界影响。
研究的应用价值在于：为实际CPS中无线传感器节点的自适应抗干扰功率控制策略设计提供了理论依据和算法工具。特别是在系统模型复杂或环境信息不完全可知的情况下，所提的无模型学习算法显示出良好的应用潜力，有助于实现智能化的主动安全防御。
六、 研究亮点 1. 建模创新：突破了传统二元DoS攻击模型，采用了更精细的、基于SINR的多功率等级连续博弈模型，并首次在CPS安全背景下建立了结合估计质量和能量消耗的无限时域马尔可夫博弈框架。 2. 方法创新：针对所建复杂博弈模型，没有采用传统的、需要完整模型知识的动态规划或策略迭代方法，而是创造性地应用并改进了纳什Q学习算法，实现了在未知或复杂环境下的模型无关在线学习，这是将强化学习前沿工具解决CPS安全控制问题的重要尝试。 3. 发现重要性：不仅得到了智能的状态依赖功率控制策略，还通过仿真揭示了攻击者资源充足时可能导致系统估计失稳的临界现象，这对评估CPS安全风险和设计鲁棒性系统具有重要警示意义。 4. 交叉融合：研究深度融合了控制理论（状态估计）、通信理论（SINR模型）、博弈论和强化学习等多个学科的知识，体现了解决复杂工程问题的跨学科思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问