针对鲁棒机器学习模型的后门攻击与防御研究

分享自：
针对鲁棒机器学习模型的后门攻击与防御研究

期刊:computers & securityDOI:10.1016/j.cose.2023.103101
本文档属于类型a，即报告了一项原创性研究的科学论文。以下是对该研究的详细学术报告：
主要作者及研究机构本研究由Ezekiel Soremekun、Sakshi Udeshi和Sudipta Chattopadhyay共同完成。Ezekiel Soremekun来自英国伦敦大学皇家霍洛威学院和卢森堡大学的安全、可靠与信任跨学科中心（SNT）；Sakshi Udeshi来自新加坡的Lumeros AI公司；Sudipta Chattopadhyay来自新加坡科技设计大学（SUTD）。该研究发表于《Computers & Security》期刊，2023年1月16日在线发布。
学术背景与研究动机随着机器学习（ML）在现代软件系统中的广泛应用，确保其安全性和可靠性变得尤为重要。特别是在自动驾驶等关键应用中，ML组件的安全性至关重要。尽管对抗性训练（如基于投影梯度下降（PGD）的鲁棒优化方法）在防御对抗性攻击方面取得了显著进展，但其在面对后门攻击（backdoor attacks）时的表现尚未得到充分研究。后门攻击通过在训练数据中注入恶意样本，使模型在特定触发条件下产生错误输出，而在其他情况下表现正常。这种攻击方式与对抗性攻击不同，后者主要通过扰动输入数据来诱导模型错误分类。
本研究旨在探讨基于PGD训练的鲁棒模型是否容易受到后门攻击的影响，并提出一种名为AEGIS的检测方法，用于识别受后门感染的鲁棒模型。研究的主要目标是确保鲁棒ML模型在关键软件系统中的安全性。
研究流程与方法研究分为多个步骤，主要包括后门注入、模型训练、特征表示分析以及后门检测。
后门注入：研究首先展示了鲁棒模型在面对后门攻击时的脆弱性。通过在训练数据中注入不同类型的后门触发器（包括可见和不可见触发器），研究团队成功在鲁棒模型中植入了后门。具体来说，研究使用了CIFAR-10、MNIST和Fashion-MNIST数据集，分别注入了局部化、分布式、静态和对抗性后门触发器。
模型训练：使用PGD对抗性训练方法训练鲁棒模型。研究团队发现，尽管鲁棒模型在对抗性攻击下表现出色，但在后门攻击下仍然容易受到攻击。后门注入的成功率平均为67.83%，与标准模型的后门攻击成功率（75.86%）相当。
特征表示分析：研究团队观察到，后门攻击会在鲁棒模型的特征表示中留下痕迹。具体来说，受后门感染的模型会学习到多个特征表示，分别对应不同的输入分布。这一发现为后门检测提供了理论基础。
后门检测方法AEGIS：基于上述观察，研究团队提出了一种名为AEGIS的检测方法。AEGIS通过特征聚类技术（如t-SNE和均值漂移聚类）来识别受后门感染的模型。具体流程包括：
图像生成：通过对抗性方法生成目标类别的图像。
特征提取：提取训练图像和生成图像的特征表示。
降维与聚类：使用t-SNE对特征进行降维，并通过均值漂移聚类识别多个特征分布。
后门检测：如果某个类别的特征表示存在多个聚类，则认为该模型可能受到后门感染。
主要研究结果后门攻击成功率：研究结果表明，鲁棒模型在面对后门攻击时表现出较高的脆弱性，平均攻击成功率为67.83%。可见触发器的攻击成功率（96.4%）显著高于不可见触发器（39.3%）。
AEGIS检测效果：AEGIS在检测受后门感染的鲁棒模型方面表现出色。在所有测试的12个模型中，AEGIS成功检测出11个模型，准确率为91.6%，且没有误报。对于可见触发器，AEGIS能够准确检测出所有受感染的模型和对应的目标类别。对于不可见触发器，AEGIS的检测效果稍逊，但仍能检测出5个模型中的4个。
与现有方法的对比：研究团队将AEGIS与现有的后门检测方法（如Neural Cleanse）进行了对比。结果表明，Neural Cleanse在检测鲁棒模型中的后门时表现不佳，而AEGIS则能够有效识别受感染的模型。
结论与研究价值本研究首次系统地探讨了鲁棒模型在后门攻击下的脆弱性，并提出了一种自动化的后门检测方法AEGIS。AEGIS通过特征聚类技术，能够在不需要访问受感染数据的情况下，有效检测出受后门感染的鲁棒模型。这一方法为鲁棒ML模型的安全性提供了新的保障，特别是在关键软件系统中的应用。
研究亮点重要发现：鲁棒模型在面对后门攻击时表现出较高的脆弱性，且AEGIS能够有效检测出受感染的模型。
方法创新：AEGIS是首个针对鲁棒模型的后门检测方法，具有自动化、无需访问受感染数据的特点。
应用价值：AEGIS为鲁棒ML模型在关键软件系统中的应用提供了安全保障，特别是在自动驾驶等高风险领域。
其他有价值的内容研究还探讨了AEGIS在不同检测参数下的敏感性，结果表明AEGIS对参数变化具有较强的鲁棒性。此外，研究团队还进行了详细的敏感性分析，验证了AEGIS在不同数据集和攻击类型下的稳定性。
本研究为鲁棒ML模型的安全性提供了新的视角和方法，具有重要的理论和应用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问