分享自:

基于生成对抗网络的半监督学习与恶意软件分类的弱耦合方法

期刊:2020 25th International Conference on Pattern Recognition (ICPR)

本文档属于类型a,即报告了一项原创研究。以下是对该研究的学术报告:

主要作者及研究机构
本研究的主要作者包括Shuwei Wang、Qiuyun Wang、Zhengwei Jiang、Xuren Wang和Rongqi Jing。他们分别来自中国科学院信息工程研究所和首都师范大学信息工程学院。该研究发表在2021年1月10日至15日于意大利米兰举行的第25届国际模式识别会议(ICPR)上。

学术背景
研究领域为恶意软件分类(malware classification),这是网络安全中的重要任务,旨在通过识别恶意软件家族来增强恶意软件检测能力。随着互联网的快速发展,恶意软件变得愈加复杂和多态化,传统的机器学习方法在准确性上逐渐失去优势。深度学习(deep learning)因其在图像处理中的优异表现,成为恶意软件分类的研究热点。然而,大多数恶意软件样本存在标签不准确或缺失的问题,这限制了监督学习方法的应用。为此,本研究提出了一种结合半监督学习(semi-supervised learning)和生成对抗网络(generative adversarial networks, GAN)的新方法,以解决标签不足的问题,并提高分类准确性。

研究目标
本研究的主要目标是开发一种改进的恶意软件图像重缩放算法(Improved Malware Image Rescaling, IMIR),以减少二进制文件转换为图像文件过程中的信息损失。此外,研究还设计了一种基于VGG模型的一维卷积神经网络(1D-CNN)分类器,并结合弱耦合半监督生成对抗网络(Weak Coupling Semi-Supervised GAN, WC-SGAN)来优化分类性能。

研究流程
研究分为以下几个步骤:
1. 恶意软件图像可视化与重缩放
研究提出了一种基于局部均值算法(local mean algorithm)的IMIR算法,用于将恶意软件二进制数据转换为图像。IMIR通过扩展采样范围并调整步长计算方式,保留了更多原始信息。目标图像大小设定为4096像素,算法的时间复杂度为O(n),适用于大规模恶意软件处理。
2. 基于1D-CNN的恶意软件图像分类
研究设计了一种基于VGG模型的一维卷积神经网络分类器,包含五个卷积层、四个全连接层和一个Softmax输出层。分类器接收由IMIR算法重缩放后的图像,并输出九个恶意软件家族的概率向量。损失函数采用交叉熵(cross-entropy),优化器为Adam。
3. 基于弱耦合SGAN的半监督分类
研究将半监督生成对抗网络(SGAN)与弱耦合方法结合,分离了分类器(Classifier, C)和判别器(Discriminator, D)的任务。弱耦合方法通过共享特征提取器(Feature Extractor, F(x))来增强分类器的独立性,从而在标签不足的情况下提高分类准确性。
4. 实验评估
研究使用Microsoft恶意软件分类挑战数据集(Microsoft Malware Classification Challenge)进行实验验证。数据集包含10868个样本,分为9个家族。实验分为两组:
- 实验组A:验证IMIR算法和1D-CNN的有效性。结果表明,IMIR算法显著降低了错误率,1D-CNN结合IMIR的错误率仅为1.06%。
- 实验组B:评估SGAN和弱耦合方法的性能。在20%标签样本的情况下,弱耦合SGAN的错误率降至1.99%,召回率(recall)均高于93.75%。

主要结果
1. IMIR算法在保留原始信息方面表现优异,显著降低了KNN和SVM分类器的错误率。
2. 1D-CNN结合IMIR算法在恶意软件分类中表现出色,错误率低于其他方法。
3. 弱耦合SGAN在标签不足的情况下显著提高了分类准确性,证明了弱耦合方法的有效性。

结论
本研究通过改进恶意软件图像重缩放算法、设计一维卷积神经网络分类器以及引入弱耦合半监督生成对抗网络,显著提高了恶意软件分类的准确性和效率。IMIR算法在快速提取特征的同时保留了更多信息,1D-CNN更适合恶意软件序列特征,弱耦合SGAN则有效解决了标签不足的问题。这些方法共同降低了模型构建和使用的时间成本,提高了更新效率和时效性。

研究亮点
1. 提出了IMIR算法,解决了恶意软件图像重缩放中的信息丢失问题。
2. 设计了一维卷积神经网络分类器,更适合恶意软件序列特征。
3. 引入弱耦合SGAN,显著提高了半监督学习的分类性能。
4. 实验结果表明,该方法在错误率和召回率上均优于现有方法。

未来工作
研究计划将Wasserstein GAN(WGAN)的损失函数应用于SGAN,以进一步优化训练稳定性。此外,IMIR算法中的“均值”操作可能较为粗糙,未来将研究更优的采样窗口汇总操作。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com