基于深度递归强化学习和联邦学习的工业物联网流量入侵检测方法

2025-02-05 Wed
基于深度循环强化学习和联邦学习的工业物联网流量入侵检测方法学术背景工业物联网（Industrial Internet of Things, IIoT）的快速发展带来了智能工业系统的巨大变革，IIoT通过互联网连接各种工业设备，实现了设备间的数据交换、远程控制以及智能决策。然而，这种无缝连接和庞大的设备网络也使得工业系统面临日益复杂和多样化的网络安全威胁。在实际IIoT场景中，网络攻击可能导致数据泄漏、数据操纵、拒绝服务（denial of service, DoS）、以及工厂生产中断等严重后果。传统的入侵检测方法虽然对部分攻击类型表现出了一定的检测能力，但由于其大多采用传统的机器学习模型在集中服务器上训练，无法很好地处理分布式设备所带来的隐私、能耗以及异质性数据分布问题。
为了应对这些挑战，近年联邦学习（Federated Learning, FL）作为一种保护隐私的分布式机器学习框架受到广泛关注。FL模型能够在不迁移设备本地数据的情况下，通过共享参数实现全局模型的优化，这在维护数据隐私方面提供了重大突破。然而，由于IIoT节点生成的数据通常呈现出高度非独立同分布（Non-IID）的特点，传统的FL框架在复杂工业场景中的表现仍存在显著局限性。此外，现有研究在模型训练节点的选择上通常未能充分考虑能效与数据质量，从而进一步影响了FL系统的性能。
针对上述问题，本文提出了一种基于门控循环单元（Gated Recurrent Unit, GRU）的深度循环强化学习（Deep Recurrent Reinforcement Learning, DRL）辅助联邦学习框架，用以提升IIoT场景中的入侵检测效率与模型聚合性能。
论文来源本文题为《Intrusion Detection Approach for Industrial Internet of Things Traffic Using Deep Recurrent Reinforcement Learning Assisted Federated Learning》，作者是Amandeep Kaur，隶属于印度Madhya Pradesh的ABV-Indian Institute of Information Technology and Management。本文发表在2025年1月的IEEE Transactions on Artificial Intelligence (Volume 6, Issue 1) 上。
研究流程本文研究基于多层次的框架设计和创新方法论，涵盖从数据预处理到模型优化的完整流程。其核心思路是结合联邦学习、DRL算法和GRU模型，通过高效选取优质IIoT节点以提升全局模型性能，并通过捕捉网络流量的时间序列特性来增强入侵检测能力。
1. 系统建模与框架设计研究设想了一个复杂的IIoT工业系统，其中包括以下三层结构：
- 设备层（Edge Layer）： 部署有多种异构工业设备（如传感器和执行器），这些设备通过Wi-Fi连接本地边缘服务器，边缘服务器负责处理本地模型的训练任务。
- 云层（Cloud Layer）： 云服务器用于全局模型参数的聚合，并将更新后的模型广播给边缘服务器。
- 攻击模型： 假定攻击者通过假冒边缘服务器获取传感器数据，以劫持通信或操纵工业流程。
框架设计利用联邦学习作为核心骨架，构建一个多轮次的模型训练与参数更新迭代流程。GRU被应用于本地训练中以捕捉流量的时序特性，而DRL被用于动态选择高质量设备参与训练。
2. 数据预处理和特征提取数据预处理研究中使用了多个公共数据集，包括Ton_IoT、Edge-IIoT 和 X-IIoTID 数据集。这些数据集包含多种典型IIoT攻击，如拒绝服务攻击（DoS）、分布式拒绝服务攻击（DDoS）、密码破译及跨站脚本攻击（XSS）等。
原始的网络流量数据需经过以下步骤的预处理：
- 数据编码： 对包含分类特征的数据字段，采用独热编码（One-Hot Encoding）将非数值参数转换为数值型。
- 数据标准化： 使用最大最小归一化方法将特征值缩放到统一范围，确保模型训练时各特征贡献的均衡性。
归一化公式为：

[ z = \frac{y-y{min}}{y{max}-y{min}} ]

其中 ( y{max} ) 和 ( y_{min} ) 为特征的最小值和最大值。
3. GRU辅助的联邦学习与深度强化学习整合GRU网络设计GRU 门控机制的设计对时序数据的建模尤为重要，其包括：
- 重置门（Reset Gate）： 删除不相关信息。
- 更新门（Update Gate）： 保留重要的长时间相关信息。
本地边缘服务器通过GRU训练设备数据，提取流量中的时间依赖关系。这种机制对呈现复杂时序特征的入侵行为具有极强的捕捉能力。
DRL优化节点选择为了优化联邦学习中的设备选择，本文将问题建模为马尔可夫决策过程（Markov Decision Process, MDP）。

- 状态空间（State Space）： 节点的计算资源、数据质量、信道信噪比（SNR）等。
- 奖励函数（Reward Function）： 奖励计算以提高全局模型的收敛率为目标，同时兼顾能效和通信成本。
- 强化学习算法： 基于Q函数的深度强化学习通过经验回放机制加速收敛，拟合设备动态环境中的最优策略。
联邦学习与DRL的协同过程在每轮FL训练中：
1. 云服务器初始化全局模型并广播至选定设备。
2. 每个设备在本地训练数个epoch并更新模型参数。
3. 云服务器聚合本地模型参数后更新全局模型。

该过程持续进行直至模型收敛为止。
研究结果本文在三个公开数据集（Ton_IoT、Edge-IIoT 和 X-IIoTID）上验证了提出框架的性能：
1. Ton_IoT数据集分析准确率： 最高达到99.95%
召回率： 平均99.98%
F1分数： 99.99%
特定攻击识别情况： XSS攻击和密码破译检测表现最为优异。
2. Edge-IIoT数据集分析准确率： 达到97.90%。
能耗表现： 较传统基准大幅降低。
3. X-IIoTID数据集分析多分类场景： 针对18种细分类攻击的检测，准确率高达99.99%。
稳定性： 在非IID数据分布下，经过50轮训练后，最差用户端准确率由67.73% 提升至82.96%。
研究意义与亮点研究价值科学价值： 丰富并拓展了现有IIoT入侵检测的研究框架，引入GRU与DRL的交叉应用，为处理时序数据及提升联邦学习性能提供新思路。
应用价值： 应对工业系统实际威胁，提供高精度、低能耗的动态设备选择与入侵监控解决方案。
创新点通过多模型（GRU + DRL + FL）整合，实现对IIoT数据隐私的保护。
有效处理非IID数据分布，增强模型的适用性与实际场景的鲁棒性。
在动态信道条件下，通过DRL选择高质量节点显著降低平均能耗。
未来方向尽管本文取得了显著进展，未来工作仍可向以下方向展开：
1. 实际应用验证： 在真实工业场景中验证框架性能，以进一步提高其实时适用性。
2. 设备粒度优化： 针对特定工业设备，开发设备类型更专用的数据预处理与攻击防御机制。
3. 跨学科融合： 引入隐私增强技术（如差分隐私与区块链），进一步确保数据安全。
通过本研究框架，IIoT工业系统能够更高效地应对复杂网络攻击，从而保障关键工业过程的正常运行。