DeepEphishNet：一种使用词嵌入算法进行电子邮件网络钓鱼检测的深度学习框架

分享自：
DeepEphishNet：一种使用词嵌入算法进行电子邮件网络钓鱼检测的深度学习框架

期刊:SādhanāDOI:10.1007/s12046-024-02538-4
基于深度学习和词嵌入技术的钓鱼邮件检测新模型：DeepEphishNet
一、 作者、机构与发表信息
本研究的主要作者为 M Somesha 和 Alwyn Roshan Pais。M Somesha 来自印度卡纳塔克邦国家技术学院苏拉特卡尔校区信息安全研究实验室（Information Security Research Lab, National Institute of Technology Karnataka Surathkal），同时也在印度班加罗尔的政府 SKSJTI 学院计算机科学与工程系任职。Alwyn Roshan Pais 同属于印度卡纳塔克邦国家技术学院苏拉特卡尔校区信息安全研究实验室。该研究论文发表于期刊 Sādhanā，于 2024 年 3 月 19 日正式接受，MS 收到日期为 2023 年 10 月 7 日，修订日期为 2024 年 2 月 12 日。
二、 学术背景与研究目标
本研究属于网络安全，特别是网络钓鱼邮件检测领域。网络钓鱼是一种社会工程学攻击，通过伪造邮件诱骗用户泄露敏感信息。随着网络攻击手段日益复杂，传统的基于规则或简单机器学习的检测方法面临挑战。近年来，深度学习（Deep Learning, DL）和词嵌入（Word Embedding, WE）技术在自然语言处理领域取得了巨大成功，为钓鱼邮件检测提供了新的思路。
研究团队指出，现有许多研究虽然也应用了深度学习和词嵌入技术，但普遍存在以下特点：1）使用的特征多为邮件正文内容特征，或结合了邮件头和正文的混合特征；2）需要依赖大量特征进行模型训练；3）所使用的数据集多为公开数据集。这些因素可能影响模型在实际部署中的效率和普适性。基于此，本研究旨在探索一种更精简、更高效的检测方案。他们提出，仅使用电子邮件头部（Header） 的少数关键字段，结合先进的词嵌入和深度学习技术，是否能够达到甚至超越现有方法的检测精度。这一思路旨在减少对邮件正文的依赖（可能涉及隐私问题），并简化特征工程流程。
因此，本研究的主要目标是：提出并验证一个名为 DeepEphishNet 的新型深度学习框架，该框架仅利用电子邮件头部的四个特征（发件人、回复路径、主题、消息ID），结合多种词嵌入算法（Word2Vec, FastText, TF-IDF）和深度学习模型（深度神经网络 DNN 和双向长短期记忆网络 BiLSTM），实现对钓鱼邮件的高精度分类。研究团队还创建了自有的实时数据集来测试模型性能，以期获得更贴近真实场景的评估结果。
三、 详细研究流程
本研究的工作流程系统且完整，主要包括以下几个核心步骤：
1. 数据收集： 研究采用了两种数据收集方式，构建了三个不同的数据集（Dataset-1, Dataset-2, Dataset-3）以进行全面的性能评估。 * 公开数据集： 钓鱼邮件来自 monkey.org，合法邮件（Ham）来自 SpamAssassin 公开语料库。 * 内部数据集： 从机构学生和家庭成员处收集可疑邮件（可能属于收件箱或垃圾邮件）作为钓鱼邮件样本；从同一批用户的收件箱中收集正常邮件作为合法邮件样本。 * 数据集构成： * Dataset-1: 完全由公开数据组成，包含 6295 封合法邮件和 9135 封钓鱼邮件，总计 15430 封。 * Dataset-2: 合法邮件使用内部收集的 18270 封，钓鱼邮件使用公开的 9135 封，总计 27405 封。 * Dataset-3: 完全由内部数据组成，包含 18270 封合法邮件和 8986 封钓鱼邮件，总计 27256 封。使用内部数据集旨在评估模型在真实、未知数据上的泛化能力。
2. 数据预处理与特征选择： 使用 Python 脚本处理原始邮件数据（.mbox 格式）。脚本首先提取邮件的头部信息，然后清除其中的 HTML 标签、垃圾字符和屈折词尾。本研究的一个关键创新点是特征选择：研究者仅从邮件头部选取了四个他们认为最具判别力的字段作为特征，即 From（发件人）、Return-Path（回复路径）、Subject（主题）、Message-ID（消息ID）。这一选择基于他们先前的工作 [10]，旨在用最少的特征实现有效分类。
3. 数据库与词典创建： 将每封邮件提取出的四个特征值合并，存入一个 CSV 文件的单个单元格中，形成一条记录。所有邮件处理完毕后，形成一个标注好的数据集（钓鱼邮件标记为‘1’，合法邮件标记为‘0’）。随后，利用自然语言工具包（NLTK）进行词元化（Lemmatization） 处理，即将单词还原为其词典形式（如“running”还原为“run”），并创建词汇表（词典），为后续的词嵌入表示做准备。
4. 向量生成（词嵌入）： 这是将文本特征转化为深度学习模型可处理数值向量的关键步骤。研究评估了三种主流的词嵌入技术： * Word2Vec: 采用连续词袋模型（CBOW）和跳字模型（Skip-gram）两种架构，将单词映射到低维稠密向量空间，捕捉语义关联。 * FastText: 由 Facebook AI Research 开发，与 Word2Vec 类似，但考虑了子词（n-gram）信息，能更好地处理未登录词和形态复杂的语言。同样使用了 CBOW 和 Skip-gram 模式。 * TF-IDF（词频-逆文档频率）： 一种经典的统计方法，通过计算一个词在单个文档中的频率与其在整个文档集合中出现频率的逆对数乘积，来衡量该词对文档的重要性。
研究者为 Word2Vec 和 FastText 设置了统一的参数，如向量维度为 300，窗口大小为 10 等，以确保比较的公平性。
5. 分类（深度学习模型）： 生成的词向量被送入两种深度学习分类器进行训练和测试： * 双向长短期记忆网络（BiLSTM）： 一种特殊的循环神经网络（RNN），能够从序列数据（如文本）的前后两个方向捕捉上下文依赖关系。本研究构建的 BiLSTM 模型包含 3 个 LSTM 层（其中 2 个双向）、4 个 Dropout 层和 4 个全连接层，使用 ReLU 和 Sigmoid 作为激活函数，Adam 作为优化器。 * 深度神经网络（DNN）： 一种前馈神经网络，包含多个隐藏层。本研究构建的 DNN 模型包含 6 个全连接层（每层 264 个节点）和 6 个 Dropout 层，同样使用 ReLU 和 Sigmoid 激活函数，以及 Adam 优化器。
6. 实验评估： 研究设计了五组实验，分别测试三种词嵌入技术（Word2Vec-Skipgram, Word2Vec-CBOW, FastText-Skipgram, FastText-CBOW, TF-IDF）与两种深度学习模型（BiLSTM, DNN）在三个数据集上的组合性能。实验采用 70%-30% 的数据划分进行训练和测试。评估指标不仅包括准确率（Accuracy），还涵盖了精确率（Precision）、召回率/真正率（TPR/Recall）、F1分数（F-score）、真负率（TNR）、马修斯相关系数（MCC）和验证损失（Validation Loss），以全面衡量模型性能。
四、 主要研究结果
实验结果表明，所提出的 DeepEphishNet 框架在仅使用四个邮件头部特征的情况下，取得了非常优异的分类性能。
1. 总体性能： 在所有的词嵌入与深度学习模型组合中，FastText-Skipgram 与 DNN 模型的组合在内部数据集（Dataset-3）上取得了最佳性能，准确率高达 99.52%。同一组合在 BiLSTM 模型上也达到了 99.42% 的准确率。这证明了 FastText 词嵌入技术与 DNN 分类器结合的有效性。
2. 模型对比： 综合来看，DNN 模型的整体表现略优于 BiLSTM 模型。在大多数实验配置下，DNN 取得了相同或更高的准确率。例如，在 Dataset-3 上，除了 TF-IDF，其他所有词嵌入方法搭配 DNN 的准确率均高于 99%。这表明对于本研究选取的、经过词嵌入处理的相对固定的特征表示，深层前馈网络（DNN）可能比序列模型（BiLSTM）具有更强的拟合和分类能力。
3. 数据集影响： 实验结果也显示了数据集来源对性能的影响。完全由内部数据构成的 Dataset-3 在所有最佳结果中均取得了最高的准确率（如 Word2Vec-Skipgram+DNN: 99.43%; FastText-CBOW+DNN: 99.48%; FastText-Skipgram+DNN: 99.52%）。这突显了使用贴近实际应用场景的数据集进行模型开发和评估的重要性，公开数据集可能无法完全反映最新的钓鱼邮件特征。
4. 词嵌入技术对比： FastText 系列方法（尤其是 Skipgram）整体表现最佳。Word2Vec 也取得了很好的结果（最高 99.43%）。传统的 TF-IDF 方法虽然性能稍逊，但与深度学习结合后，在 Dataset-3 上仍能达到 99.04% 的准确率，证明了其作为文本表示基础方法的有效性。
5. 与现有工作的比较： 研究团队将他们的最佳结果与近年来的相关研究进行了对比（见原文表14）。此前大多数研究使用了邮件正文或混合特征，且数据集规模和要求特征数量各异。其中，Ra 等人 [25] 使用邮件正文特征和 LSTM 模型在 IWSPA-AP 2018 数据集上取得了 99.1% 的最高准确率。本研究提出的模型，仅使用四个头部特征，在自建数据集上达到了 99.52% 的准确率，超越了已有文献报道的最佳性能。这有力地支持了研究者的核心论点：精心选择的少量头部特征，结合先进的词嵌入和深度学习技术，足以实现顶尖的钓鱼邮件检测精度。
五、 结论与研究价值
本研究成功提出并验证了 DeepEphishNet 这一新型钓鱼邮件检测框架。其主要结论是：仅利用电子邮件头部的四个关键特征（From, Return-Path, Subject, Message-ID），结合 FastText 词嵌入和深度神经网络（DNN）模型，能够以极高的准确率（99.52%）区分钓鱼邮件和合法邮件，且性能优于使用更复杂特征或不同模型架构的现有方法。
该研究的价值体现在以下几个方面： * 科学价值： 证明了在钓鱼邮件检测任务中，特征质量比特征数量更为重要。通过深入的词嵌入表示，即使是极简的、非内容性的元数据特征，也能蕴含丰富的判别信息。这为后续的特征工程和模型设计提供了新思路。 * 应用价值： 1. 高效与轻量： 仅处理邮件头部，避免了分析邮件正文可能带来的隐私泄露风险和更高的计算开销，使得模型更易于部署在客户端或资源受限的环境中。 2. 高精度： 达到了业界领先的检测精度，能有效保护用户免受钓鱼攻击。 3. 实用性： 所创建的内部数据集和验证结果，表明模型对现实世界中的新型钓鱼邮件具有较好的泛化能力。 4. 可扩展性： 该框架（词嵌入+深度学习）可以方便地集成其他特征或适配新的词嵌入、深度学习模型。
六、 研究亮点
特征选择的创新性： 明确提出并验证了“仅使用四个邮件头部特征”进行高精度钓鱼邮件检测的可行性，这在相关研究中具有显著的新颖性。该方法简化了流程，并规避了隐私问题。
高性能的模型组合： 系统性地评估了多种词嵌入技术与深度学习模型的组合，并确定了 FastText-Skipgram + DNN 这一最优组合，为后续研究和应用提供了明确的参考。
真实世界数据集的构建与使用： 创建并使用了自有的内部实时数据集（Dataset-3），使得模型评估更加贴近实际应用场景，增强了研究结论的说服力和模型的实用价值。
全面的对比分析： 不仅进行了内部模型组合的对比，还与近年来多项前沿研究进行了横向比较，清晰展示了本研究所提方法的竞争优势。
七、 其他有价值的内容
研究还详细描述了模型的网络结构超参数（如层数、节点数、Dropout率、优化器等），为复现实验提供了充分信息。此外，文中对 LSTM/BiLSTM 和 DNN 的数学原理进行了简要阐述，并提供了混淆矩阵、验证准确率/损失曲线等详细实验结果图表，使得研究过程透明、结果可信。研究者也展望了未来工作方向，例如将模型扩展应用到邮件正文特征，以及鼓励其他研究者使用他们创建的数据集进行测试，体现了学术研究的开放性和延续性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问