本文档属于类型a,即报告了一项原创性研究的科学论文。以下是对该研究的详细学术报告:
本研究由Ezekiel Soremekun、Sakshi Udeshi和Sudipta Chattopadhyay共同完成。Ezekiel Soremekun来自英国伦敦大学皇家霍洛威学院和卢森堡大学的安全、可靠与信任跨学科中心(SNT);Sakshi Udeshi来自新加坡的Lumeros AI公司;Sudipta Chattopadhyay来自新加坡科技设计大学(SUTD)。该研究发表于《Computers & Security》期刊,2023年1月16日在线发布。
随着机器学习(ML)在现代软件系统中的广泛应用,确保其安全性和可靠性变得尤为重要。特别是在自动驾驶等关键应用中,ML组件的安全性至关重要。尽管对抗性训练(如基于投影梯度下降(PGD)的鲁棒优化方法)在防御对抗性攻击方面取得了显著进展,但其在面对后门攻击(backdoor attacks)时的表现尚未得到充分研究。后门攻击通过在训练数据中注入恶意样本,使模型在特定触发条件下产生错误输出,而在其他情况下表现正常。这种攻击方式与对抗性攻击不同,后者主要通过扰动输入数据来诱导模型错误分类。
本研究旨在探讨基于PGD训练的鲁棒模型是否容易受到后门攻击的影响,并提出一种名为AEGIS的检测方法,用于识别受后门感染的鲁棒模型。研究的主要目标是确保鲁棒ML模型在关键软件系统中的安全性。
研究分为多个步骤,主要包括后门注入、模型训练、特征表示分析以及后门检测。
后门注入:研究首先展示了鲁棒模型在面对后门攻击时的脆弱性。通过在训练数据中注入不同类型的后门触发器(包括可见和不可见触发器),研究团队成功在鲁棒模型中植入了后门。具体来说,研究使用了CIFAR-10、MNIST和Fashion-MNIST数据集,分别注入了局部化、分布式、静态和对抗性后门触发器。
模型训练:使用PGD对抗性训练方法训练鲁棒模型。研究团队发现,尽管鲁棒模型在对抗性攻击下表现出色,但在后门攻击下仍然容易受到攻击。后门注入的成功率平均为67.83%,与标准模型的后门攻击成功率(75.86%)相当。
特征表示分析:研究团队观察到,后门攻击会在鲁棒模型的特征表示中留下痕迹。具体来说,受后门感染的模型会学习到多个特征表示,分别对应不同的输入分布。这一发现为后门检测提供了理论基础。
后门检测方法AEGIS:基于上述观察,研究团队提出了一种名为AEGIS的检测方法。AEGIS通过特征聚类技术(如t-SNE和均值漂移聚类)来识别受后门感染的模型。具体流程包括:
后门攻击成功率:研究结果表明,鲁棒模型在面对后门攻击时表现出较高的脆弱性,平均攻击成功率为67.83%。可见触发器的攻击成功率(96.4%)显著高于不可见触发器(39.3%)。
AEGIS检测效果:AEGIS在检测受后门感染的鲁棒模型方面表现出色。在所有测试的12个模型中,AEGIS成功检测出11个模型,准确率为91.6%,且没有误报。对于可见触发器,AEGIS能够准确检测出所有受感染的模型和对应的目标类别。对于不可见触发器,AEGIS的检测效果稍逊,但仍能检测出5个模型中的4个。
与现有方法的对比:研究团队将AEGIS与现有的后门检测方法(如Neural Cleanse)进行了对比。结果表明,Neural Cleanse在检测鲁棒模型中的后门时表现不佳,而AEGIS则能够有效识别受感染的模型。
本研究首次系统地探讨了鲁棒模型在后门攻击下的脆弱性,并提出了一种自动化的后门检测方法AEGIS。AEGIS通过特征聚类技术,能够在不需要访问受感染数据的情况下,有效检测出受后门感染的鲁棒模型。这一方法为鲁棒ML模型的安全性提供了新的保障,特别是在关键软件系统中的应用。
研究还探讨了AEGIS在不同检测参数下的敏感性,结果表明AEGIS对参数变化具有较强的鲁棒性。此外,研究团队还进行了详细的敏感性分析,验证了AEGIS在不同数据集和攻击类型下的稳定性。
本研究为鲁棒ML模型的安全性提供了新的视角和方法,具有重要的理论和应用价值。