分享自:

针对鲁棒机器学习模型的后门攻击与防御研究

期刊:computers & securityDOI:10.1016/j.cose.2023.103101

本文档属于类型a,即报告了一项原创性研究的科学论文。以下是对该研究的详细学术报告:

主要作者及研究机构

本研究由Ezekiel Soremekun、Sakshi Udeshi和Sudipta Chattopadhyay共同完成。Ezekiel Soremekun来自英国伦敦大学皇家霍洛威学院和卢森堡大学的安全、可靠与信任跨学科中心(SNT);Sakshi Udeshi来自新加坡的Lumeros AI公司;Sudipta Chattopadhyay来自新加坡科技设计大学(SUTD)。该研究发表于《Computers & Security》期刊,2023年1月16日在线发布。

学术背景与研究动机

随着机器学习(ML)在现代软件系统中的广泛应用,确保其安全性和可靠性变得尤为重要。特别是在自动驾驶等关键应用中,ML组件的安全性至关重要。尽管对抗性训练(如基于投影梯度下降(PGD)的鲁棒优化方法)在防御对抗性攻击方面取得了显著进展,但其在面对后门攻击(backdoor attacks)时的表现尚未得到充分研究。后门攻击通过在训练数据中注入恶意样本,使模型在特定触发条件下产生错误输出,而在其他情况下表现正常。这种攻击方式与对抗性攻击不同,后者主要通过扰动输入数据来诱导模型错误分类。

本研究旨在探讨基于PGD训练的鲁棒模型是否容易受到后门攻击的影响,并提出一种名为AEGIS的检测方法,用于识别受后门感染的鲁棒模型。研究的主要目标是确保鲁棒ML模型在关键软件系统中的安全性。

研究流程与方法

研究分为多个步骤,主要包括后门注入、模型训练、特征表示分析以及后门检测。

  1. 后门注入:研究首先展示了鲁棒模型在面对后门攻击时的脆弱性。通过在训练数据中注入不同类型的后门触发器(包括可见和不可见触发器),研究团队成功在鲁棒模型中植入了后门。具体来说,研究使用了CIFAR-10、MNIST和Fashion-MNIST数据集,分别注入了局部化、分布式、静态和对抗性后门触发器。

  2. 模型训练:使用PGD对抗性训练方法训练鲁棒模型。研究团队发现,尽管鲁棒模型在对抗性攻击下表现出色,但在后门攻击下仍然容易受到攻击。后门注入的成功率平均为67.83%,与标准模型的后门攻击成功率(75.86%)相当。

  3. 特征表示分析:研究团队观察到,后门攻击会在鲁棒模型的特征表示中留下痕迹。具体来说,受后门感染的模型会学习到多个特征表示,分别对应不同的输入分布。这一发现为后门检测提供了理论基础。

  4. 后门检测方法AEGIS:基于上述观察,研究团队提出了一种名为AEGIS的检测方法。AEGIS通过特征聚类技术(如t-SNE和均值漂移聚类)来识别受后门感染的模型。具体流程包括:

    • 图像生成:通过对抗性方法生成目标类别的图像。
    • 特征提取:提取训练图像和生成图像的特征表示。
    • 降维与聚类:使用t-SNE对特征进行降维,并通过均值漂移聚类识别多个特征分布。
    • 后门检测:如果某个类别的特征表示存在多个聚类,则认为该模型可能受到后门感染。

主要研究结果

  1. 后门攻击成功率:研究结果表明,鲁棒模型在面对后门攻击时表现出较高的脆弱性,平均攻击成功率为67.83%。可见触发器的攻击成功率(96.4%)显著高于不可见触发器(39.3%)。

  2. AEGIS检测效果:AEGIS在检测受后门感染的鲁棒模型方面表现出色。在所有测试的12个模型中,AEGIS成功检测出11个模型,准确率为91.6%,且没有误报。对于可见触发器,AEGIS能够准确检测出所有受感染的模型和对应的目标类别。对于不可见触发器,AEGIS的检测效果稍逊,但仍能检测出5个模型中的4个。

  3. 与现有方法的对比:研究团队将AEGIS与现有的后门检测方法(如Neural Cleanse)进行了对比。结果表明,Neural Cleanse在检测鲁棒模型中的后门时表现不佳,而AEGIS则能够有效识别受感染的模型。

结论与研究价值

本研究首次系统地探讨了鲁棒模型在后门攻击下的脆弱性,并提出了一种自动化的后门检测方法AEGIS。AEGIS通过特征聚类技术,能够在不需要访问受感染数据的情况下,有效检测出受后门感染的鲁棒模型。这一方法为鲁棒ML模型的安全性提供了新的保障,特别是在关键软件系统中的应用。

研究亮点

  1. 重要发现:鲁棒模型在面对后门攻击时表现出较高的脆弱性,且AEGIS能够有效检测出受感染的模型。
  2. 方法创新:AEGIS是首个针对鲁棒模型的后门检测方法,具有自动化、无需访问受感染数据的特点。
  3. 应用价值:AEGIS为鲁棒ML模型在关键软件系统中的应用提供了安全保障,特别是在自动驾驶等高风险领域。

其他有价值的内容

研究还探讨了AEGIS在不同检测参数下的敏感性,结果表明AEGIS对参数变化具有较强的鲁棒性。此外,研究团队还进行了详细的敏感性分析,验证了AEGIS在不同数据集和攻击类型下的稳定性。

本研究为鲁棒ML模型的安全性提供了新的视角和方法,具有重要的理论和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com