LimeAttack: 一种针对文本硬标签对抗攻击的局部可解释方法

分享自：
LimeAttack: 一种针对文本硬标签对抗攻击的局部可解释方法

期刊:Association for the Advancement of Artificial Intelligence
该文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
LimeAttack: 一种针对文本硬标签对抗攻击的本地可解释方法
作者及机构
 本研究的作者包括Hai Zhu（中国科学技术大学、平安科技）、Qingyang Zhao（西安电子科技大学）、Weiwei Shang（中国科学技术大学）、Yuren Wu（平安科技）和Kai Liu（Lazada）。该研究发表于2024年的AAAI Conference on Artificial Intelligence (AAAI-24)。
学术背景
 本研究的主要科学领域是自然语言处理（Natural Language Processing, NLP），特别是对抗攻击（adversarial attacks）领域。深度学习模型（Deep Neural Networks, DNNs）在NLP任务中取得了巨大成功，但它们对对抗样本（adversarial examples）非常脆弱。对抗样本是通过对输入进行微小扰动而生成的样本，这些扰动对人眼几乎不可察觉，但可以误导模型的预测。传统的对抗攻击方法依赖于模型的内部信息（如梯度或置信度分数），然而，这些信息在现实世界中往往不可获取。因此，本研究聚焦于一种更具挑战性和现实意义的场景——硬标签攻击（hard-label attack），即攻击者只能通过查询模型获得离散的预测标签，而无法访问模型的内部信息。现有的硬标签攻击算法通常通过随机替换初始化对抗样本，然后使用复杂的启发式算法优化扰动，这些方法需要大量查询且攻击成功率受初始化质量限制。为了解决这些问题，本研究提出了一种新的硬标签攻击算法——LimeAttack，通过利用本地可解释方法（local explainable method）近似单词重要性排序，并结合束搜索（beam search）找到最优解。
研究流程
 LimeAttack的研究流程主要包括以下步骤：
 1. 单词重要性排序（Word Importance Ranking）
 LimeAttack首先通过本地可解释方法（如LIME）估计每个单词的重要性。具体而言，LIME通过在良性样本中随机替换某些单词生成邻域样本，并使用这些样本训练一个线性模型。线性模型的参数近似于每个单词的重要性。这种方法在硬标签攻击中特别有用，因为传统的删除法（deletion-based method）在硬标签设置下无法有效计算单词重要性。
 2. 扰动执行（Perturbation Execution）
 在获得单词重要性排序后，LimeAttack使用束搜索生成高质量的对抗样本。具体而言，LimeAttack为每个单词选择其同义词候选集，并通过语义相似度筛选候选样本。束搜索在每次迭代中选择部分候选样本进入下一步，逐步优化扰动。为了平衡攻击成功率和语义相似度，LimeAttack采用了一种特殊的采样规则，即每次迭代中分别选择语义相似度最高、最低和随机样本。
 3. 实验与评估
 研究在七个常见数据集（如MR、SST-2、AG等）上进行了实验，评估了LimeAttack在文本分类和文本蕴含任务中的表现。实验还对比了LimeAttack与其他硬标签攻击算法（如HLBB、TextHoaxer等）以及一些经典的基于分数的攻击算法（如TextFooler、PWWS等）。此外，研究还评估了LimeAttack在大型语言模型（如ChatGPT）和一些防御方法上的有效性。
主要结果
 1. 攻击性能
 LimeAttack在多个数据集上（如SST-2、AG、MNLI）均表现出色，攻击成功率和扰动率优于现有的硬标签攻击算法。特别是在查询预算有限的情况下，LimeAttack仍能保持较高的攻击成功率。
 2. 查询预算
 在不同查询预算下，LimeAttack的攻击成功率曲线更加平滑，表明其在不同预算下均能保持稳定的性能。
 3. 对抗样本质量
 LimeAttack生成的对抗样本在语义相似度和语法错误率方面表现优异，尽管其语义相似度略低于某些基线方法，但综合考虑各项指标，LimeAttack仍具有明显优势。
 4. 大型语言模型评估
 LimeAttack成功攻击了多个大型语言模型（如DeBERTa、BART、GPT-3等），表明对抗样本对这些模型仍构成显著威胁。
 5. 防御方法评估
 在使用了防御方法（如A2T、ASCC）的模型上，LimeAttack仍表现出一定的攻击效果，优于其他基线方法。
结论
 LimeAttack通过引入本地可解释方法，显著提高了硬标签攻击的效率和成功率。其在有限查询预算下的优异表现表明，LimeAttack在实际应用中具有较高的实用价值。此外，LimeAttack生成的对抗样本具有高迁移性，能够有效提升模型在对抗训练中的鲁棒性。该研究为硬标签攻击领域提供了新的思路，并验证了“由内向外”攻击路径的有效性。
研究亮点
 1. 创新性方法：LimeAttack首次将本地可解释方法引入硬标签攻击，解决了传统方法在硬标签设置下无法有效计算单词重要性的问题。
 2. 高效性：LimeAttack在有限查询预算下仍能保持较高的攻击成功率，显著优于现有方法。
 3. 广泛适用性：LimeAttack不仅在传统NLP任务中表现出色，还在大型语言模型和防御方法上展现了强大的攻击能力。
 4. 高质量对抗样本：LimeAttack生成的对抗样本在语义相似度和语法错误率方面表现优异，难以被人类察觉。
其他有价值的内容
 研究还进行了消融实验（ablation study），验证了单词重要性排序和采样规则对LimeAttack性能的贡献。此外，研究还通过人工评估进一步验证了LimeAttack生成对抗样本的质量和可读性。
以上是关于LimeAttack研究的详细报告，涵盖了研究的背景、流程、结果、结论及其科学价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问