这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由张跃、郭子昕、黄益彬和颜涛共同完成,他们均来自南瑞集团有限公司(国网电力科学研究院),研究发表在《计算机与现代化》2025年第3期上。
本研究属于网络安全领域,特别是网络入侵检测方向。随着信息技术的广泛应用,网络结构日益复杂,网络攻击手段也变得更加多样化,如DDoS攻击、0day漏洞和APT攻击等,这些攻击导致大规模数据泄露和损失,严重威胁社会正常运行。传统的入侵检测系统(IDS)依赖于人工提取特征,存在重要特征丢失和攻击类型识别准确率低的问题。为了解决这些问题,本研究提出了一种基于卷积长短期网络(Convolutional Long-Short Term Memory, ConvLSTM)和卷积神经网络(Convolutional Neural Networks, CNN)的混合算法(Convlstm-CNN),旨在自动提取网络流量的时空特征,提高异常流量检测的准确率。
研究首先对原始网络流量数据进行预处理,包括数据切分、去重和标记、数据编码以及向量转换和存储。数据切分使用pkt2flow工具将大pcap文件按五元组(源IP地址、源端口、目的IP地址、目的端口、协议)切割成小文件。去重和标记则通过读取CIC-IDS2017数据集提供的CSV文件,将每个pcap文件的五元组信息与CSV文件中的索引列匹配,添加相应的标签。数据编码采用基于二进制字段解析的方法,将每个流文件处理为(n×m×m)的三维向量,其中n为每个流中包含的包的数量,m为每个包的大小。最后,通过numpy库将解析后的数据存储为npz格式,作为模型的输入。
模型由Convlstm层和卷积层混合构成。Convlstm层用于提取流量的时空特征,其输入为预处理后的高维数据向量,输出为包含时空特征的高维向量。卷积层通过卷积操作进一步提取流量的空间特征,最后通过softmax函数进行分类。Convlstm层包括两层结构,循环提取数据包的时空特征,并利用第二层Convlstm的最后时间戳的状态向量作为整个流量的时空特征表示。卷积层包括卷积层、BN层和池化层的堆叠结构,进一步提取流量的空间特征。全连接层整合并打平Convlstm层和卷积层提取的高维信息特征,输出层采用softmax分类器进行分类。
激活函数采用ReLU(Rectified Linear Unit,修正线性单元),损失函数采用交叉熵损失函数,优化方法采用Adam(Adaptive Moment Estimation,自适应时刻估计)。其他超参数包括dropout率、批量大小和学习速率等。
实验在CIC-IDS2017数据集上进行,包含正常流量和8种攻击类型的流量。研究将数据集分为训练集、验证集和测试集,比例为8:2:1。实验结果显示,Convlstm-CNN模型的分类准确率达到99.39%,高于其他对比算法(如DNN、SVM、LSTM、GRU-CNN等)。混淆矩阵和分类评估指标(如精确率、召回率、误警率和F1-score)进一步验证了该模型在异常流量检测中的优越性能。
本研究提出的Convlstm-CNN模型能够有效提取网络流量的时空特征,显著提高了异常流量检测的准确率。该方法无需人工提取复杂的流量特征,直接以网络流量的有效载荷作为数据样本,充分挖掘流量的结构特征,生成准确的入侵检测特征向量。实验结果表明,该模型在CIC-IDS2017数据集上的分类准确率达到99.39%,优于其他机器学习算法和深度学习算法,表明其在网络入侵检测领域具有重要的应用价值。
本研究还详细介绍了数据预处理流程、模型构建方法、超参数选取以及实验结果分析,为后续研究提供了重要的参考依据。此外,研究还指出了未来改进的方向,如优化参数选择、减少训练开销以及考虑数据样本的不平衡特点等。