基于CBSeq的加密恶意软件流量检测方法

分享自：
基于CBSeq的加密恶意软件流量检测方法

期刊:journal of latex class files
这篇文档属于类型a，即报告了一项原创性研究。以下是基于文档内容生成的学术报告：
研究作者与机构
 本研究的作者包括Susu Cui、Cong Dong、Meng Shen、Yuling Liu、Bo Jiang和Zhigang Lu。他们分别来自中国科学院信息工程研究所、中国科学院大学网络安全学院、中关村实验室以及北京理工大学网络空间安全学院。该研究于2020年9月发表在《Journal of LaTeX Class Files》上。
学术背景
 本研究的主要科学领域是网络安全，特别是针对加密恶意软件流量的检测。随着网络攻击的频繁发生，传统的基于签名的检测方法在应对加密流量时表现不佳，而机器学习和神经网络方法虽然具有较高的扩展性和灵活性，但仍面临高误报率和未知恶意软件流量检测效果不佳的问题。因此，本研究旨在提出一种新的方法，通过构建稳定的流量表示形式——行为序列（behavior sequence），来表征攻击意图并实现恶意软件流量的检测。
研究目标
 本研究的主要目标是开发一种名为CBSeq（Channel-level Behavior Sequence）的方法，通过聚合具有相似行为的通道（channel）并提取其行为序列，结合基于Transformer的多序列融合分类器（MSFormer），实现对已知和未知恶意软件流量的有效检测。
研究流程
 研究流程主要包括以下几个步骤：
行为序列的构建
通道流量聚合：将具有相同源IP和目标IP的多流（multi-flow）聚合为一个通道（channel），与传统方法中以五元组（5-tuple）为粒度不同，通道能够更全面地探索行为特征。
 
通道抽象特征提取：从通道流量中提取抽象特征，包括持续时间、流数量、总数据量、上行数据量和下行数据量。
 
聚类：基于通道抽象特征，使用DBSCAN算法对通道进行聚类，将具有相似行为的通道归为同一簇。
 
行为序列提取：从同一簇的通道中提取四种序列：包数量序列（PN sequence）、到达时间间隔序列（IAT sequence）、源端口序列（SP sequence）和目标端口序列（DP sequence），并将它们融合为簇的行为序列。
 
嵌入表示：使用Word2Vec将行为序列转换为嵌入表示，增强序列的表征能力。
MSFormer检测器的构建
输入层：将行为序列嵌入作为输入。
 
编码器：构建四个独立的子网络，分别对四种序列进行深度学习，捕捉序列内部的关系。
 
分类器：通过Softmax分类器对输出序列进行分类，区分恶意流量和良性流量。
研究对象与样本量
 研究使用了真实世界的数据集进行评估，包括良性流量数据集（Benign-all）和恶意软件流量数据集（CTU-6和CTU-all）。Benign-all包含32860个通道，CTU-6包含6种恶意软件的流量样本，CTU-all包含75781个恶意软件通道流量样本。
研究结果
 1. 已知恶意软件流量检测
 - CBSeq在检测已知恶意软件流量时表现优异，AUC（Area Under Curve）平均值为0.9940，优于其他基线方法。
 - 例如，在检测Zeus恶意软件时，CBSeq的AUC达到0.998，误报率（FPR）仅为0.018。
未知恶意软件流量检测
CBSeq在检测未知恶意软件流量时同样表现出色，AUC平均值为0.8893，比基线方法提高了16.1%。
 
这表明CBSeq在处理未知恶意软件流量时具有较高的鲁棒性。
嵌入分析
通过嵌入表示，研究解决了原始数据中数值差异过大的问题，并成功捕捉了端口之间的行为关联。
 
例如，源端口嵌入中，具有相似值的端口在嵌入空间中距离较近，而目标端口嵌入中，提供相同服务的端口（如443、80、8080）在嵌入空间中更为接近。
行为序列分析
四种序列（PN、IAT、SP、DP）在表征恶意软件流量时各有优势，结合使用能够更好地挖掘攻击意图。
 
移除任何一种序列都会导致检测性能下降，表明四种序列之间不存在冗余关系。
结论
 本研究提出的CBSeq方法通过构建行为序列并结合Transformer分类器，实现了对加密恶意软件流量的有效检测，特别是在未知恶意软件流量检测方面表现出色。该方法具有跨协议、鲁棒性强等优点，能够应对恶意软件的频繁变种和更新。
研究价值
 1. 科学价值：CBSeq为恶意软件流量检测提供了一种新的思路，通过行为序列表征攻击意图，突破了传统方法在加密流量检测中的局限性。
 2. 应用价值：CBSeq可以集成到现有的网络入侵检测系统（NIDS）中，提升对恶意流量的检测能力，特别是在应对未知恶意软件时具有显著优势。
研究亮点
 1. 创新性方法：首次提出以通道为检测对象，并通过行为序列表征攻击意图。
 2. 高效分类器：设计了基于Transformer的多序列融合分类器（MSFormer），能够捕捉序列内部的相似性，提升检测准确性。
 3. 跨协议检测：CBSeq仅使用侧信道内容（side-channel content），不依赖于应用层协议信息，实现了跨协议的恶意软件流量检测。
其他有价值内容
 研究还分析了嵌入表示在解决数据差异问题和捕捉行为意图方面的作用，进一步验证了CBSeq方法的有效性。此外，研究对四种行为序列的分析为未来相关研究提供了重要参考。
以上报告详细介绍了本研究的背景、流程、结果及其价值，为其他研究者提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问