本文档属于类型a,即一篇单篇原创研究的学术报告。以下是对该研究的详细介绍:
本研究的主要作者包括Md Liakat Ali、Kutub Thakur、Suzanna Schmeelk、Joan Debello和Denise Dragos。Md Liakat Ali来自Rider University的计算机科学与物理系,其余作者来自St. John’s University的职业研究学院。该研究于2025年2月12日发表在《Applied Sciences》期刊上,论文标题为“Deep Learning vs. Machine Learning for Intrusion Detection in Computer Networks: A Comparative Study”。
随着网络流量的增加和网络威胁的日益复杂化,传统的入侵检测系统(Intrusion Detection Systems, IDS)面临着高误报率、复杂的特征工程以及数据集类别不平衡等挑战,这些因素都阻碍了准确威胁检测的实现。为了克服这些局限性,本研究旨在探讨深度学习(Deep Learning, DL)和机器学习(Machine Learning, ML)在网络入侵检测中的应用,并进行对比分析。研究的主要目标是通过实施多种深度学习模型(如多层感知器MLP、卷积神经网络CNN和长短期记忆网络LSTM)和传统机器学习算法(如逻辑回归、朴素贝叶斯、随机森林、K近邻和决策树),评估它们在网络入侵检测中的性能,特别是针对大规模网络环境中的威胁检测。
本研究包括以下几个主要步骤:
数据预处理
研究使用了CICIDS2017数据集,该数据集包含与网络流量相关的多种特征。数据预处理步骤包括:
pandas库的drop_duplicates函数去除重复值。此外,使用均值插补法处理了353个缺失值。特征工程与缩放
特征工程包括选择和创建相关特征以提高模型的预测性能。使用StandardScaler对特征进行标准化处理,确保所有特征在距离计算中具有同等权重。
模型训练与评估
研究训练了多种机器学习模型(如逻辑回归、随机森林、支持向量机等)和深度学习模型(如MLP、CNN和LSTM)。每个模型都通过随机搜索进行超参数优化,以提高检测准确性。模型的性能通过准确率、F1分数等指标进行评估。
性能比较与分析
研究对深度学习模型和传统机器学习模型进行了全面的性能比较,重点分析了它们在检测准确性、误报率和计算效率等方面的表现。
机器学习模型的表现
深度学习模型的表现
数据平衡与特征选择的影响
应用SMOTE技术后,模型对少数类别的检测性能显著提高。通过基于相关性的特征选择,去除了高度相关的冗余特征,进一步提升了模型的效率和可解释性。
本研究表明,深度学习模型(特别是CNN和LSTM)在网络入侵检测中具有显著优势,能够有效检测已知和未知的攻击模式。然而,随机森林模型在结构化入侵检测任务中表现最为出色,准确率高达99.9%。研究还探讨了深度学习模型的计算效率和实际部署中的资源消耗问题,强调了在准确性和计算开销之间的权衡。研究结果为选择适合特定网络环境和安全需求的入侵检测模型提供了有价值的见解。
本研究为网络安全领域提供了重要的理论和实践贡献。通过对比深度学习与传统机器学习模型在网络入侵检测中的表现,研究为开发更高效、更准确的入侵检测系统提供了科学依据。此外,研究提出的数据平衡和特征选择方法为处理网络安全数据中的类别不平衡问题提供了新的解决方案。这些发现不仅有助于提升网络安全的防御能力,还为未来在恶意软件检测、漏洞评估等领域的应用提供了参考。
研究还探讨了深度学习模型的优化技术,如并行处理、分布式训练和模型压缩,这些技术有助于提高模型在实时检测中的效率。此外,研究还提出了未来研究的方向,包括开发结合深度学习和传统机器学习的混合模型,以及探索无监督和半监督学习技术在入侵检测中的应用。