本文的主要作者包括 Xiang Li、Juncheng Guo、Qige Song、Jiang Xie、Yafei Sang、Shuyuan Zhao 和 Yongzheng Zhang,分别隶属于中国科学院信息工程研究所、中国科学院大学网络安全学院、Amazon(中国)、中关村实验室,以及中国资产网络安全技术有限公司等研究机构。该研究发表在“2023 20th Annual IEEE International Conference on Sensing, Communication, and Networking (SECON)”期刊上。
加密流量分类(Encrypted Traffic Classification, ETC)是网络管理中的一个重要任务,尤其在移动应用广泛使用加密通信的当下显得尤为重要。传统基于深度包检测(Deep Packet Inspection)和端口的流量分类方法在面对加密通信时逐渐失效。
尽管已有基于机器学习的方法在ETC中展现出潜力,但依然面临以下三重挑战: 1. 流量类别失衡(Class Imbalance):现实网络环境中,流量类别通常极不平衡。例如,根据QuestMobile的报告,主流应用产生的流量,如阿里巴巴和腾讯,占据了中国市场超过66.9%的份额,而其他应用最多仅占8%。 2. 流量同质性(Traffic Homogeneity):由于应用程序共享公用的认证、广告以及分析组件,不同应用之间的网络流量特征容易出现重叠,例如多个应用程序访问相同的云服务或CDN。 3. 对标注流量的依赖:大多数ETC技术需要大量标注数据进行训练,而大规模的交通数据标注工作通常耗时且昂贵。
为了解决这些问题,本文提出了一种称为“PASS”的预训练半监督加密流量分类框架,旨在从根本上克服流量类别失衡与同质性问题,同时减少对标注数据的依赖。
研究主要包括三大流程:流量预处理、对比学习预训练以及半监督微调。
为了提升对流量类别失衡与同质性问题的处理能力,该研究设计了正负样本对的采样算法和多头注意力编码器: 1. 正负样本对采样(Positive-Negative Pair Sampling): - 完全不同类别的流量样本视为强负样本(Strong Negatives)。 - 同类别不同通信信息(如TLS证书不同、目的IP/Port组合不同)的流量样本视为弱负样本(Weak Negatives)。 - 同一流量样本通过额外的随机增强生成正样本。 2. 编码器与投影层(Multi-Head Attention Encoder and Projection Layer): - 多头注意力编码器用于捕获上下文特性,投影层则通过非线性映射增强流量表示。 3. 对比损失函数(Contrastive Loss Function):采用InfoNCE损失函数,将正样本拉近,将强负和弱负样本分别以不同权重推动远离。
实验结果:
消融实验(Ablation Study):
同质性流量分析(Homogeneous Traffic Analysis):
本文提出的PASS框架展示了如何通过对比预训练和半监督学习机制解决加密流量分类中的实际问题,具体价值包括: 1. 科学价值:通过处理现实网络中的流量类别失衡和同质性问题,为ETC任务树立了新基准。 2. 应用价值:无需大规模标注数据的前提下,PASS能够适应真实网络环境中复杂的流量分布。 3. 迁移性:PASS的伪标签迭代与对比学习机制可广泛应用于其他ETC模型,灵活提升其性能,并推动相关领域的进一步研究。
总结来说,PASS框架为解决ETC任务的实际问题提供了一套完整且卓有成效的解决方案,同时为相关领域的研究者提供了清晰的研究方向。