分享自:

LimeAttack: 一种针对文本硬标签对抗攻击的局部可解释方法

期刊:Association for the Advancement of Artificial Intelligence

该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


LimeAttack: 一种针对文本硬标签对抗攻击的本地可解释方法

作者及机构
本研究的作者包括Hai Zhu(中国科学技术大学、平安科技)、Qingyang Zhao(西安电子科技大学)、Weiwei Shang(中国科学技术大学)、Yuren Wu(平安科技)和Kai Liu(Lazada)。该研究发表于2024年的AAAI Conference on Artificial Intelligence (AAAI-24)

学术背景
本研究的主要科学领域是自然语言处理(Natural Language Processing, NLP),特别是对抗攻击(adversarial attacks)领域。深度学习模型(Deep Neural Networks, DNNs)在NLP任务中取得了巨大成功,但它们对对抗样本(adversarial examples)非常脆弱。对抗样本是通过对输入进行微小扰动而生成的样本,这些扰动对人眼几乎不可察觉,但可以误导模型的预测。传统的对抗攻击方法依赖于模型的内部信息(如梯度或置信度分数),然而,这些信息在现实世界中往往不可获取。因此,本研究聚焦于一种更具挑战性和现实意义的场景——硬标签攻击(hard-label attack),即攻击者只能通过查询模型获得离散的预测标签,而无法访问模型的内部信息。现有的硬标签攻击算法通常通过随机替换初始化对抗样本,然后使用复杂的启发式算法优化扰动,这些方法需要大量查询且攻击成功率受初始化质量限制。为了解决这些问题,本研究提出了一种新的硬标签攻击算法——LimeAttack,通过利用本地可解释方法(local explainable method)近似单词重要性排序,并结合束搜索(beam search)找到最优解。

研究流程
LimeAttack的研究流程主要包括以下步骤:
1. 单词重要性排序(Word Importance Ranking)
LimeAttack首先通过本地可解释方法(如LIME)估计每个单词的重要性。具体而言,LIME通过在良性样本中随机替换某些单词生成邻域样本,并使用这些样本训练一个线性模型。线性模型的参数近似于每个单词的重要性。这种方法在硬标签攻击中特别有用,因为传统的删除法(deletion-based method)在硬标签设置下无法有效计算单词重要性。
2. 扰动执行(Perturbation Execution)
在获得单词重要性排序后,LimeAttack使用束搜索生成高质量的对抗样本。具体而言,LimeAttack为每个单词选择其同义词候选集,并通过语义相似度筛选候选样本。束搜索在每次迭代中选择部分候选样本进入下一步,逐步优化扰动。为了平衡攻击成功率和语义相似度,LimeAttack采用了一种特殊的采样规则,即每次迭代中分别选择语义相似度最高、最低和随机样本。
3. 实验与评估
研究在七个常见数据集(如MR、SST-2、AG等)上进行了实验,评估了LimeAttack在文本分类和文本蕴含任务中的表现。实验还对比了LimeAttack与其他硬标签攻击算法(如HLBB、TextHoaxer等)以及一些经典的基于分数的攻击算法(如TextFooler、PWWS等)。此外,研究还评估了LimeAttack在大型语言模型(如ChatGPT)和一些防御方法上的有效性。

主要结果
1. 攻击性能
LimeAttack在多个数据集上(如SST-2、AG、MNLI)均表现出色,攻击成功率和扰动率优于现有的硬标签攻击算法。特别是在查询预算有限的情况下,LimeAttack仍能保持较高的攻击成功率。
2. 查询预算
在不同查询预算下,LimeAttack的攻击成功率曲线更加平滑,表明其在不同预算下均能保持稳定的性能。
3. 对抗样本质量
LimeAttack生成的对抗样本在语义相似度和语法错误率方面表现优异,尽管其语义相似度略低于某些基线方法,但综合考虑各项指标,LimeAttack仍具有明显优势。
4. 大型语言模型评估
LimeAttack成功攻击了多个大型语言模型(如DeBERTa、BART、GPT-3等),表明对抗样本对这些模型仍构成显著威胁。
5. 防御方法评估
在使用了防御方法(如A2T、ASCC)的模型上,LimeAttack仍表现出一定的攻击效果,优于其他基线方法。

结论
LimeAttack通过引入本地可解释方法,显著提高了硬标签攻击的效率和成功率。其在有限查询预算下的优异表现表明,LimeAttack在实际应用中具有较高的实用价值。此外,LimeAttack生成的对抗样本具有高迁移性,能够有效提升模型在对抗训练中的鲁棒性。该研究为硬标签攻击领域提供了新的思路,并验证了“由内向外”攻击路径的有效性。

研究亮点
1. 创新性方法:LimeAttack首次将本地可解释方法引入硬标签攻击,解决了传统方法在硬标签设置下无法有效计算单词重要性的问题。
2. 高效性:LimeAttack在有限查询预算下仍能保持较高的攻击成功率,显著优于现有方法。
3. 广泛适用性:LimeAttack不仅在传统NLP任务中表现出色,还在大型语言模型和防御方法上展现了强大的攻击能力。
4. 高质量对抗样本:LimeAttack生成的对抗样本在语义相似度和语法错误率方面表现优异,难以被人类察觉。

其他有价值的内容
研究还进行了消融实验(ablation study),验证了单词重要性排序和采样规则对LimeAttack性能的贡献。此外,研究还通过人工评估进一步验证了LimeAttack生成对抗样本的质量和可读性。


以上是关于LimeAttack研究的详细报告,涵盖了研究的背景、流程、结果、结论及其科学价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com