聆听少数派：基于对比预训练的加密流量分类处理类别不平衡问题

分享自：
聆听少数派：基于对比预训练的加密流量分类处理类别不平衡问题

期刊:IEEE International Conference on Sensing, Communication, and Networking (SECON)DOI:10.1109/SECON55012.2023.9999999
关于《Listen to Minority: Encrypted Traffic Classification for Class Imbalance with Contrastive Pre-Training》的学术报告第一部分：研究的作者与发表情况本文的主要作者包括 Xiang Li、Juncheng Guo、Qige Song、Jiang Xie、Yafei Sang、Shuyuan Zhao 和 Yongzheng Zhang，分别隶属于中国科学院信息工程研究所、中国科学院大学网络安全学院、Amazon（中国）、中关村实验室，以及中国资产网络安全技术有限公司等研究机构。该研究发表在“2023 20th Annual IEEE International Conference on Sensing, Communication, and Networking (SECON)”期刊上。
第二部分：研究背景加密流量分类（Encrypted Traffic Classification, ETC）是网络管理中的一个重要任务，尤其在移动应用广泛使用加密通信的当下显得尤为重要。传统基于深度包检测（Deep Packet Inspection）和端口的流量分类方法在面对加密通信时逐渐失效。
尽管已有基于机器学习的方法在ETC中展现出潜力，但依然面临以下三重挑战： 1. 流量类别失衡（Class Imbalance）：现实网络环境中，流量类别通常极不平衡。例如，根据QuestMobile的报告，主流应用产生的流量，如阿里巴巴和腾讯，占据了中国市场超过66.9%的份额，而其他应用最多仅占8%。 2. 流量同质性（Traffic Homogeneity）：由于应用程序共享公用的认证、广告以及分析组件，不同应用之间的网络流量特征容易出现重叠，例如多个应用程序访问相同的云服务或CDN。 3. 对标注流量的依赖：大多数ETC技术需要大量标注数据进行训练，而大规模的交通数据标注工作通常耗时且昂贵。
为了解决这些问题，本文提出了一种称为“PASS”的预训练半监督加密流量分类框架，旨在从根本上克服流量类别失衡与同质性问题，同时减少对标注数据的依赖。
第三部分：研究流程研究主要包括三大流程：流量预处理、对比学习预训练以及半监督微调。
流量预处理数据提取：从加密流量中提取每个包的原始负载（Raw Payload, RP）序列和数据包长度（Packet Length, PL）序列。RP提取128字节，移除IP地址、端口号等偏差信息，并按每两个字节分组编码；PL则提取每32个数据包的长度信息，并标记数据包方向（+代表客户端→服务端，-代表服务端→客户端）。
多粒度流量序列构建（Multi-Granularity Traffic Sequence Construction）：将RP与PL序列拼接，形成包含多个独特标记（如[cls]用于序列开始，[sep]用于间隔RP与PL序列）的输入序列。
词嵌入（Word Embedding）：对预处理后的离散流量序列进行高维向量转换，并加入位置编码以保留上下文信息。
对比学习预训练为了提升对流量类别失衡与同质性问题的处理能力，该研究设计了正负样本对的采样算法和多头注意力编码器： 1. 正负样本对采样（Positive-Negative Pair Sampling）： - 完全不同类别的流量样本视为强负样本（Strong Negatives）。 - 同类别不同通信信息（如TLS证书不同、目的IP/Port组合不同）的流量样本视为弱负样本（Weak Negatives）。 - 同一流量样本通过额外的随机增强生成正样本。 2. 编码器与投影层（Multi-Head Attention Encoder and Projection Layer）： - 多头注意力编码器用于捕获上下文特性，投影层则通过非线性映射增强流量表示。 3. 对比损失函数（Contrastive Loss Function）：采用InfoNCE损失函数，将正样本拉近，将强负和弱负样本分别以不同权重推动远离。
半监督微调伪标签迭代（Pseudo-Label Iteration）： 使用初始模型对未标注加密流量生成伪标签。
结合原始标注数据进一步微调，并根据伪标签置信度逐步优化模型，直到准确率指标稳定。
重新平衡算法（Data Re-Balancing）： 通过加权采样解决伪标签数据的不平衡问题。
使用动态损失加权区分伪标签数据与真实标注数据对最终损失函数的贡献。
第四部分：研究主要结果实验结果：
将PASS应用在四个存在显著类别失衡与流量同质性问题的公开数据集上（C-P215、ISCX-17、C-TLS1.3和CIC2019）。结果显示，PASS的F1得分在各数据集上均显著超过现有最先进的方法，其中在C-P215上提升2.42%（对比Et-BERT），在ISCX-17上提升高达9.38%。
PASS在对小规模不平衡数据集如ISCX-17上的表现尤其突出，证明能够有效学习少数类别的特性。
消融实验（Ablation Study）：
去除伪标签迭代和对比预训练中的任一模块，都导致PASS性能显著下降，平均F1分别降低3.27%和1.22%。
数据重新平衡与动态损失加权机制也显著提升模型对不平衡数据的处理能力。
同质性流量分析（Homogeneous Traffic Analysis）：
通过T-SNE表示，可视化证明PASS在处理同质流量时能够生成更多可分离的分类向量，尤其在区分腾讯系应用的同质流量时表现显著优异。
第五部分：结论与意义本文提出的PASS框架展示了如何通过对比预训练和半监督学习机制解决加密流量分类中的实际问题，具体价值包括： 1. 科学价值：通过处理现实网络中的流量类别失衡和同质性问题，为ETC任务树立了新基准。 2. 应用价值：无需大规模标注数据的前提下，PASS能够适应真实网络环境中复杂的流量分布。 3. 迁移性：PASS的伪标签迭代与对比学习机制可广泛应用于其他ETC模型，灵活提升其性能，并推动相关领域的进一步研究。
第六部分：亮点与创新点首次综合解决流量类别失衡与同质性问题：PASS是首个以对比预训练为核心，结合多粒度流量特征构建和多头注意力编码的框架。
伪标签迭代策略：有效利用未标注数据，缓解了对真实标注数据的依赖。
显著的性能提升：无论是在少量样本或流量高度同质的数据集上，均能获得显著优势。
第七部分：未来研究方向扩展到更多应用场景：进一步验证在物联网（IoT）和企业内部网络中的性能。
优化训练效率：减少伪标签迭代的计算成本，提高训练效率。
探索额外特征：结合实时流量的时间特征，以提升对动态变化流量的敏感性。
总结来说，PASS框架为解决ETC任务的实际问题提供了一套完整且卓有成效的解决方案，同时为相关领域的研究者提供了清晰的研究方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问