通过伪装和重构在少量查询中破解大型语言模型

分享自：
通过伪装和重构在少量查询中破解大型语言模型

期刊:33rd USENIX Security Symposium
这篇文档属于类型a，即报告了一项原创性研究。以下是对该研究的学术报告：
主要作者及机构
 本研究的主要作者包括Tong Liu和Yingjie Zhang，来自中国科学院信息工程研究所和中国科学院大学网络空间安全学院；Zhe Zhao和Yinpeng Dong来自RealAI，其中Yinpeng Dong还任职于清华大学；Guozhu Meng和Kai Chen同样来自中国科学院信息工程研究所和中国科学院大学网络空间安全学院。该研究发表于第33届USENIX安全研讨会（USENIX Security Symposium），会议于2024年8月14日至16日在美国费城举行。
学术背景
 本研究的科学领域主要涉及大型语言模型（Large Language Models, LLMs）的安全性。近年来，LLMs在多种任务中展现了显著的性能，但其可信度仍然是一个开放性问题。特别是，LLMs可能生成有毒或有害的回应，攻击者可以通过精心设计的对抗性提示（adversarial prompts）诱导LLMs产生有害内容。本研究旨在揭示LLMs在安全微调过程中存在的偏差漏洞，并提出一种名为“伪装与重建攻击”（Disguise and Reconstruction Attack, DRA）的黑箱越狱方法，以通过伪装和重建有害指令来绕过LLMs的安全机制。
研究流程
 研究分为以下几个主要步骤：
 1. 问题定义与威胁模型：研究首先定义了LLMs越狱攻击的问题，并假设攻击者在黑箱设置下无法访问目标模型的任何细节（如架构、参数、训练数据等），只能通过输入内容并利用输出结果来调整输入。
 2. 安全偏差分析：研究分析了LLMs在微调过程中存在的安全偏差，特别是由于对话格式和优化目标导致的查询与完成之间的差异。这种偏差使得LLMs在完成中生成有害内容的频率低于查询中，从而降低了模型对有害内容的防护能力。
 3. DRA方法设计：研究提出了一种名为DRA的越狱方法，包括三个核心策略：有害指令伪装、负载重建和上下文操纵。有害指令伪装通过字谜和词级分割技术将有害指令隐藏；负载重建通过提示工程引导LLMs从伪装内容中重建有害指令；上下文操纵则通过精心设计的提示词使模型更“愿意”合作，从而提高越狱成功率。
 4. 实验与评估：研究在多个开源和闭源模型上评估了DRA的有效性，包括Llama-2、Vicuna、Mistral、Zephyr、Mixtral、ChatGPT-3.5和GPT-4。实验结果表明，DRA在多个模型上实现了高达91.1%的越狱成功率，且所需的查询次数显著低于现有方法。
 5. 防御与缓解：研究还探讨了针对DRA的防御策略，包括无偏训练、系统提示增强和输入/输出净化，并指出输出过滤是当前最有效的防御手段。
主要结果
 1. 安全偏差验证：实验验证了LLMs在微调过程中存在的安全偏差，特别是模型对完成中有害内容的防护能力低于查询中的有害内容。
 2. DRA有效性：DRA在多个模型上实现了显著的越狱成功率，例如在GPT-4上达到了91.1%的成功率，且平均查询次数仅为3.8次。
 3. 防御效果评估：研究测试了四种现有的防御方法，发现DRA能够有效绕过OpenAI的审核、困惑度过滤和RA-LLM，但无法绕过基于输出过滤的Bergeron防御。
结论与意义
 本研究首次揭示并实验验证了LLMs在微调过程中存在的安全偏差及其导致的漏洞，提出了一种新颖的黑箱越狱方法DRA，并展示了其在多个主流模型上的高效性。研究不仅为LLMs的安全性研究提供了新的视角，还为未来设计更健壮的AI系统提供了理论基础和实践指导。
研究亮点
 1. 首次定义与分析安全偏差：研究首次明确并分析了LLMs在微调过程中存在的安全偏差，揭示了其背后的根本原因。
 2. DRA方法的创新性：DRA方法结合了伪装、负载重建和上下文操纵，首次将传统软件安全中的shellcode概念应用于LLMs安全领域。
 3. 高效性与广泛适用性：DRA在多个模型上实现了高效的越狱，且所需的资源成本显著低于现有方法。
其他有价值的内容
 研究还探讨了未来工作方向，包括如何使DRA的有害输出更隐蔽以绕过输出过滤，以及开发针对输出过滤的自适应攻击。此外，研究团队在实验过程中严格遵守了伦理规范，及时向相关LLM提供商披露了研究结果，并获得了部分提供商的认可和奖励。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问