本文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:
本研究由Wei Wang(中国科学技术大学自动化系)、Ming Zhu(中国科学技术大学自动化系)与Xuewen Zeng、Xiaozhou Ye、Yiqiang Sheng(中国科学院声学研究所国家网络新媒体工程技术研究中心)合作完成,发表于2017年IEEE国际会议(ICOIN 2017),会议论文编号978-1-5090-5124-3/17/$31.00。
研究领域:本研究属于网络安全领域,聚焦于恶意流量分类(malware traffic classification),结合了表征学习(representation learning)与卷积神经网络(CNN)技术。
研究动机:传统流量分类方法(如基于端口、深度包检测DPI、统计特征或行为特征)存在局限性:规则匹配方法(如DPI)无法处理加密流量,而经典机器学习方法依赖人工设计特征,计算成本高且泛化能力有限。表征学习可通过原始数据自动提取特征,但此前未充分应用于恶意流量分类领域。
研究目标:提出一种基于CNN的恶意流量分类方法,直接以原始流量数据(而非人工设计特征)作为输入,验证表征学习在此任务中的有效性,并确定最优流量表示形式。
研究比较了四种流量表示类型:
- 粒度:流(flow,单向)与会话(session,双向);
- 协议层:全层(all layers)或仅应用层(layer 7)。
通过八组实验验证最优表示形式(见第四部分结果)。
开发工具包USTC-TK2016,流程分四步:
1. 流量分割:按流或会话切割原始PCAP文件。
2. 流量清洗:匿名化MAC/IP地址,删除空文件或重复数据。
3. 图像生成:将流量前784字节转为28×28灰度图像(0x00–0xFF对应黑白像素)。
4. IDX转换:生成CNN输入格式文件。
科学价值:
1. 首次将表征学习应用于原始流量数据的恶意流量分类,证明了CNN自动提取特征的可行性。
2. 确定了会话+全层为最优流量表示形式,为后续研究提供方法论参考。
应用价值:
1. 早期检测:仅需流量前784字节即可分类,优于需完整流量的传统方法。
2. 轻量化:无需人工设计特征,降低计算成本。
3. 开源贡献:公开数据集USTC-TFC2016、工具包USTC-TK2016及代码,推动领域研究。
此研究为恶意流量检测提供了新范式,其开源数据与工具将进一步促进学术界与工业界的合作创新。