本文的研究题为《CETP: A Novel Semi-Supervised Framework Based on Contrastive Pre-Training for Imbalanced Encrypted Traffic Classification》,由Xinjie Lin、Longtao He、Gaopeng Gou、Jing Yu、Zhong Guan、Xiang Li、Juncheng Guo和Gang Xiong共同完成,作者分别来自中国科学院信息工程研究所、中国科学院大学网络安全学院、中国国家网络安全应急响应技术队,以及Amazon公司。该研究发表在《Computers & Security》第143卷(2024年)上,文章编号为103892。
加密流量分类(Encrypted Traffic Classification, ETC)是网络安全和网络管理领域的基础技术之一,主要用于在不同应用程序和网络服务中识别流量类别。这一能力对网络攻击检测、服务质量(QoS)保障以及其他应用场景尤为重要。然而,互联网加密技术的广泛应用、流量数据不平衡问题以及流量同质化现象给ETC带来了巨大挑战。
已有的基于深度学习的ETC方法虽取得了一定成效,但在实际应用条件下仍面临两个主要问题:(1)由流量类别不平衡导致的标签偏差(label bias);(2)由于网络应用共享组件而引发的流量同质化问题(traffic homogeneity)。传统方法在处理这些问题时常常依赖均衡的数据分布和显式标签的支持,但很难从未标注数据中学到泛化能力较强的表征。此外,虽然预训练技术已在自然语言处理和计算机视觉领域取得显著突破,但在ETC领域的应用尚处于探索阶段。本文提出了对上述问题的解决方案。
作者提出了一种新的加密流量分类方法——对比加密流量预训练(Contrastive Encrypted Traffic Pre-Training, CETP)。其研究目标在于从大规模未标注的、不平衡的加密流量数据中学习深层、多粒度的流量表示,并通过半监督的方式进行特定任务的微调,从而实现对不平衡加密流量的准确分类,解决因流量类别不平衡和流量同质化导致的分类难题。
在CETP框架的第一阶段,作者设计了一个多粒度的Traffic2Token模型,旨在将流量数据转化为类似自然语言的多粒度序列表示。具体步骤包括: - 多粒度序列提取: 从流量包捕获数据(pcap)中提取原始数据报(Raw Datagram, RD)序列和包长度(Packet Length, PL)序列。RD序列采用每包128字节,而PL序列则提取32个双向数据包。 - 流量编码: 利用Bi-gram模型将流量数据编码为高频特征的字典。 - 多粒度序列构建: 将RD和PL序列拼接后加入特定起始标志([CLS])和分隔标志([SEP]),形成带位置编码的多粒度 token 序列。
该阶段的核心在于通过对比学习构造强泛化能力的流量表示,具体包括: - 正负样本对构建: 作者改进了传统对比学习中正负样本的构造方法——定义了强负样本(Strong Negative Examples, 具有不同类别标签的流量数据)和弱负样本(Weak Negative Examples, 同类但通信模式不同的流量数据),以增强模型区分流量特征的能力。 - 引入两个预训练任务: - 对比学习模型(Contrastive Learning Model, CLM):通过拉近相似样本、拉远不同样本的分布,学习偏态分布下的数据表征。 - 掩码序列模型(Masked Sequence Model, MSM):从流量序列中随机遮掩部分 token,并训练模型预测这些被遮掩的 token 以捕捉多粒度上下文关系。
在微调阶段,作者采用伪标签迭代(Pseudo-Label Iteration, PLI)和动态损失加权算法(Dynamic Loss Weighting)解决数据再平衡,具体包括: - 初始模型构建: 利用CETP的预训练参数微调初始化模型,使用训练数据生成伪标签。 - 伪标签生成: 结合训练集和高置信(例如阈值≥95%)的伪标签数据进行重新训练,逐步优化模型性能。 - 动态损失加权: 为伪标签数据分配较低权重,减少伪标签中的错误影响,同时增强模型对原始训练数据的关注。
作者在六个广泛使用的公开数据集(例如cp-android、iscx-vpn和c-tls1.3)上证明了CETP的有效性: - 平均提升: CETP在F1评分上实现了显著的性能提升,在分类严重不平衡的数据集上取得最高10.19%的改进。 - 泛化能力: CETP在TLS1.3和QUIC等新加密协议的场景下也显示出优越的流量分类能力。
通过对腾讯家族和同域流量(如google.com)进行T-SNE可视化分析,研究发现CETP能够更清晰地定义同质化流量的特征分界。同时,敏感分析表明,增加预训练样本的多样性和构建合理的多粒度序列长度组合,是进一步优化CETP的重要因素。
本文首次提出了CETP框架,通过对比预训练和半监督微调,成功解决了不平衡加密流量分类中标签偏差和流量同质化等难题。CETP不仅在学术研究中展示了卓越的流量表示能力,其应用前景也十分广泛,例如网络攻击检测、流量行为分析、现代加密协议分类等。
未来,作者计划进一步优化CETP在小样本和多任务学习的表现能力,并探索其在新型加密协议和更复杂网络环境下的应用潜能。同时,整合生成对抗网络以解决极端少样本问题也将是潜在研究方向之一。