In-Depth网络钓鱼邮件检测：评估机器学习和深度学习模型在多个数据集上的性能

分享自：
In-Depth网络钓鱼邮件检测：评估机器学习和深度学习模型在多个数据集上的性能

环境工程
计算机科学
期刊:Appl. Sci.DOI:10.3390/app15063396
【点击此处】阅读全文、收藏及针对性提问
针对网络钓鱼邮件检测的深度分析：评估机器学习与深度学习模型在多个数据集上的性能
一、 研究作者、机构与发表信息
本研究由来自沙特阿拉伯两所大学的四位研究人员共同完成。主要作者为 Abeer Alhuzali，其所属机构为阿卜杜勒阿齐兹国王大学计算与信息技术学院计算机科学系。其他共同作者包括 Ahad Alloqmani、Manar Aljabri（均来自阿卜杜勒阿齐兹国王大学）以及 Fatemah Alharbi（来自泰巴大学计算机科学与工程学院计算机科学系）。该研究以论文形式发表，题为 “In-Depth Analysis of Phishing Email Detection: Evaluating the Performance of Machine Learning and Deep Learning Models Across Multiple Datasets”，于2025年3月20日发表于学术期刊 Appl. Sci. (2025, 15, 3396)。所有作者对研究贡献均等。
二、 学术背景与研究目标
本研究属于网络安全与人工智能交叉领域，具体聚焦于网络钓鱼邮件检测这一核心课题。网络钓鱼攻击是当前最普遍且有效的网络攻击手段之一，攻击者利用伪装成合法来源的欺诈性邮件，诱骗受害者泄露敏感信息或执行有害操作。随着攻击技术，特别是利用人工智能生成高度逼真钓鱼邮件技术的日益复杂，传统基于特征（如URL、IP地址、发件人信息）的检测机制已显乏力。
尽管已有大量研究探索利用机器学习（ML）和深度学习（DL）技术进行自动化钓鱼邮件检测，但现有工作普遍存在局限性：1) 数据集单一或有限：大多数研究仅使用一两个数据集进行评估，限制了研究结论在多样化、真实世界钓鱼场景下的泛化能力。2) 模型覆盖范围窄：研究通常只评估少数几种模型，缺乏对广泛采用的ML和DL模型的系统性比较。3) 缺乏标准化评估框架：缺少一个统一的框架来一致地实现和评估不同模型在多个数据集上的性能，导致结果难以直接比较。
基于此，本研究旨在填补上述研究空白，其核心目标是：开发一个新颖的、标准化的评估框架，对14种经典的机器学习与深度学习模型在10个不同的公开数据集上进行全面、系统的性能评估与比较，旨在回答以下四个研究问题（RQ）： * RQ1：哪些ML和DL模型对钓鱼邮件检测最有效？ * RQ2：ML和DL模型在应用于多个独立数据集与一个合并数据集时，其性能表现有何差异？ * RQ3：ML与DL模型在钓鱼邮件检测的准确性、鲁棒性和泛化性方面存在哪些关键性能差异？ * RQ4：哪些DL模型在钓鱼邮件检测上优于ML模型，原因是什么？
三、 详细研究流程
本研究构建了一个结构化的框架，包含数据收集、预处理、模型选择、实验设置、评估与结果分析等多个环节。
1. 数据收集与准备： 研究使用了九个广泛认可的公开电子邮件数据集（Ling, Enron, SpamAssassin, TREC-05, TREC-06, TREC-07, CEAS-08, Nazario_5, Nigerian_5），涵盖了从早期到相对近期的不同时期、不同来源（如公司邮件、公开垃圾邮件库、特定钓鱼语料库）的邮件样本。这些数据集总计包含超过20万封邮件，其中钓鱼/垃圾邮件占比约为45.81%，合法邮件占比约为54.19%。为了进行更全面的分析，研究者还创建了第十个数据集——合并数据集，将上述九个数据集整合为一个大型、多样化的语料库，并采用下采样技术对其进行了平衡处理，使得钓鱼邮件与安全邮件数量相等，以消除类别不平衡可能带来的评估偏差。
2. 数据预处理： 针对机器学习模型，预处理步骤包括：删除空值和重复项；保留邮件正文和类型标签；将标签编码为数值（安全邮件为0，钓鱼邮件为1）；移除超链接、标点符号和多余空格；最后，使用词频-逆文档频率（TF-IDF） 向量化器将文本转换为数值特征向量。TF-IDF被选中的原因是其在相关文献中被证明性能优异。 针对深度学习模型，研究遵循了先前工作的建议，不对原始邮件文本进行预处理。这是因为DL模型（尤其是LSTM）具有从原始文本中自动学习复杂特征的能力，预处理有时反而可能移除有用的语义信息。
3. 模型选择与描述： 研究共评估了14种模型，分为两大类： * 机器学习模型（7种）：包括朴素贝叶斯（Naive Bayes）、逻辑回归（Logistic Regression）、随机梯度下降分类器（SGD Classifier）、极端梯度提升（XGBoost）、决策树（Decision Tree）、随机森林（Random Forest）和极限树（Extra Tree）。这些都是文本分类和钓鱼检测中常用的经典算法。 * 深度学习模型（7种）：包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、以及基于Transformer架构的模型：BERT、DistilBERT、RoBERTa，此外还包括图卷积网络（GCN）。其中，Transformer模型因其在自然语言处理（NLP）任务中的卓越表现而被引入。
4. 实验设置： 所有实验在Google Colab Pro平台上使用Python和Scikit-learn库进行。对于每个数据集，均采用80%-20% 的比例划分训练集和测试集。为防止过拟合，在DL模型中使用了Dropout技术，在ML分类器中使用了L2正则化。模型的具体超参数（如优化器、损失函数、批次大小、学习率、训练轮数）在论文中均有详细说明（例如，BERT使用Adam优化器，学习率为5e-5，训练5个epoch）。
5. 评估指标： 采用四种广泛认可的指标来评估模型在二分类任务上的性能：准确率（Accuracy）、精确率（Precision）、召回率（Recall） 和 F1分数（F1-Score）。这些指标基于真阳性（TP）、真阴性（TN）、假阳性（FP）、假阴性（FN）进行计算，其中正类定义为钓鱼邮件。
6. 泛化能力验证： 为了进一步验证模型的鲁棒性和泛化能力，研究选取了表现最好的ML模型（SGD分类器）和DL模型（BERT, DistilBERT, RoBERTa），在一个外部数据集（Phishing Validation Emails Dataset）上进行了额外的测试。该数据集包含真实和合成的钓鱼邮件样本，用于评估模型在未见数据上的表现。
四、 主要研究结果
实验产生了大量详细数据，以下是对核心结果的阐述：
1. 模型性能整体比较（回答RQ1与RQ4）： 在所有评估的模型中，基于Transformer的深度学习模型（BERT和RoBERTa） consistently outperformed 传统的机器学习模型。在合并数据集（平衡版）上，RoBERTa取得了最高的99.08% 的准确率，BERT紧随其后，达到98.99% 的准确率。相比之下，表现最好的传统ML模型（SGD分类器）在相同数据集上的准确率为96.51%。DL模型平均比ML模型高出约4.7% 的准确率。这表明，DL模型，特别是那些能够理解文本上下文和语义细微差别的Transformer架构，在钓鱼邮件检测任务上具有显著优势。BERT和RoBERTa的高性能归因于其双向编码器架构，能够深度理解文本结构和语义，有效捕捉钓鱼邮件中使用的微妙欺骗策略。
2. 各数据集上的最佳模型： 研究详细列出了每个数据集上表现最佳的模型及其指标（见表4）。例如，在Ling数据集上，BERT达到了完美的100%准确率、精确率和召回率。在TREC-07数据集上，CNN取得了99.45%的最高准确率。在CEAS-08数据集上，DistilBERT以99.68%的准确率领先。在Nazario_5和合并数据集上，RoBERTa表现最佳。这说明了不同模型在不同数据分布和特征上的适应性有所差异。
3. 合并数据集与独立数据集的性能对比（回答RQ2）： 实验结果表明，在合并的、多样化的大型数据集上，DL模型依然保持领先。RoBERTa在合并数据集及其平衡版本上分别取得了99.03%和99.08%的准确率，证明了其在处理异构数据时的强大泛化能力。同时，研究也观察到，某些数据集（如Ling）虽然平均准确率高，但召回率相对较低，意味着模型可能漏报更多钓鱼邮件，这在安全应用中是一个关键缺陷。而TREC-07数据集则在精确率和召回率上都表现出色。
4. ML与DL模型的权衡（回答RQ3）： 虽然DL模型在准确性上占优，但研究也指出了其计算成本更高、训练时间更长的缺点。例如，从表5可以看出，CNN、RNN、LSTM等模型的训练时间远长于大多数ML模型。然而，在Transformer模型中，DistilBERT作为一个轻量化版本，在保持高准确率（如合并数据集98.83%）的同时，拥有更短的训练和预测时间（表6）。这使得DistilBERT成为实时钓鱼检测应用的一个有潜力的候选者。相比之下，GCN模型在所有数据集上表现均不理想（准确率约70-86%），这主要是因为GCN适用于图结构数据，而电子邮件文本本质上是序列数据，直接应用效果不佳。
5. 传统ML模型中的佼佼者： 在7种ML模型中，SGD分类器展现了最稳定和优秀的综合性能，在多个数据集上取得了最高或接近最高的准确率，其平均准确率也是ML模型中最高的（98.17%）。它实现了精确率与召回率之间的良好平衡。
6. 泛化能力验证结果： 在外部数据集上的测试进一步证实了模型的鲁棒性。如表7所示，当在合并数据集上训练后，RoBERTa 在外部测试集上取得了96.00% 的高准确率（在平衡合并数据集上训练后为95.00%），其测试集与外部数据集之间的准确率差距很小，表明其过拟合风险低，泛化能力强。而BERT在外部数据集上的表现（88.80%和81.30%）则略逊于RoBERTa，研究者分析这可能与BERT的下一句预测（NSP）任务在某些场景下的局限性有关。
五、 研究结论与价值
本研究通过构建一个全面的评估框架，系统地比较了14种ML和DL模型在10个数据集上的钓鱼邮件检测性能。主要结论如下： 1. 深度学习模型，尤其是基于Transformer的模型（如BERT、RoBERTa），在钓鱼邮件检测任务上显著优于传统机器学习模型，在准确率、精确率、召回率和F1分数上均表现更佳。 2. 模型的性能受数据集特性影响。使用多样化、大规模的合并数据集进行训练和评估，对于开发鲁棒、可泛化的检测系统至关重要。 3. 需要在准确性和效率之间进行权衡。虽然Transformer模型精度最高，但计算开销大。DistilBERT在精度和效率之间提供了良好的平衡，更适合资源受限或需要实时响应的场景。 4. SGD分类器是传统ML模型中最稳定和有效的选择。
本研究的科学价值在于：1) 提出了一个标准化的评估框架，为未来研究提供了可复现的基准。2) 通过大规模、多样化的数据集验证，增强了研究结论的可靠性和泛化性。3) 明确了Transformer模型在该领域的优势，为后续研究指明了方向。应用价值在于：为开发更先进的AI驱动的电子邮件安全系统提供了实证依据和模型选型建议，有助于实际部署更有效的钓鱼邮件过滤方案。
六、 研究亮点
全面性与系统性：研究评估的模型数量（14种）和数据集数量（10个）远超大多数同类工作，提供了迄今为止对该领域模型性能最全面的对比分析之一。
聚焦Transformer模型：较早地将BERT、RoBERTa等先进的Transformer模型系统性地引入钓鱼邮件检测任务并进行评估，揭示了其巨大潜力。
实用的框架与洞见：不仅比较精度，还分析了训练时间、预测时间以及在不同数据集上的泛化表现，为研究者和实践者提供了从模型选择到部署的完整视角。
强调数据多样性：通过创建和使用合并数据集，有力地论证了使用多样化数据对于评估模型真实性能的重要性，挑战了仅使用单一数据集进行评估的常见做法。
兼顾学术与工程：研究既探讨了最前沿的DL模型，也评估了经典实用的ML模型，并讨论了它们在实时检测系统中的可行性。
七、 其他有价值内容
论文在最后提出了将AI驱动技术应用于钓鱼邮件检测的实践策略，为开发人员提供了 actionable insights：1) 优先考虑Transformer模型以获得高精度；2) 重视数据预处理和平衡；3) 定期用新样本更新模型以应对 evolving threats；4) 在将模型集成到安全邮件网关（SEG）等实际系统时，需权衡检测精度、适应性、延迟和对抗攻击鲁棒性，并建议RoBERTa和DistilBERT是理想的候选模型。
此外，研究也指出了未来工作方向：1) 优化模型以实现实际部署；2) 扩展到英语以外的多语言钓鱼邮件检测；3) 评估模型对抗对抗性攻击和高级逃逸技术的鲁棒性。这些都为后续研究开辟了道路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问