在ICLR 2024的”Secure and Trustworthy Large Language Models”研讨会上,来自芝加哥大学、新加坡国立大学、北卡罗来纳大学教堂山分校、南洋理工大学和北京大学的研究者Zhaorun Chen、Zhuokai Zhao等人发表了一篇题为”PANDORA: Detailed LLM Jailbreaking via Collaborated Phishing Agents with Decomposed Reasoning”的研究论文。该研究致力于探索大型语言模型(Large Language Models, LLMs)安全领域中的一个核心问题——越狱攻击(jailbreaking)。随着LLMs在自然语言处理领域取得突破性进展并得到广泛应用,其安全性和隐私保护的脆弱性也日益凸显。尽管通过微调、精心设计的系统提示和安全过滤器等方法,研究社区已在增强LLMs的安全性对齐(safety alignment)方面付出了巨大努力,但旨在测试和突破这些安全措施的“红队”(red-teaming)评估,特别是越狱攻击,对于理解并最终强化模型安全至关重要。本研究提出的PANDORA方法,创新性地利用了LLMs本身的多步推理(multi-step reasoning)能力,通过协同工作的“钓鱼代理”(phishing agents)将复杂的恶意查询分解为一系列更隐蔽的子查询,从而更有效地绕过模型的安全防护,引发信息更丰富的有害响应。
本研究进行的学术背景源于对现有越狱攻击方法局限性的深入思考。当前的越狱攻击主要分为三类:需要人工创造力的手工制作提示(如Do Anything Now, DAN)、基于梯度优化的学习型攻击(如贪婪坐标梯度, Greedy Coordinate Gradient, GCG)以及基于搜索的越狱提示(如带剪枝的攻击树, Tree of Attacks with Pruning, TAP)。这些方法各有缺点:手工方法易于被黑名单机制防范;学习型方法生成的对抗序列可能无意义或易被基于困惑度(perplexity)的检测机制识别;搜索型方法则通常需要大量迭代和昂贵的评估器(如GPT-4),且它们大多沿用了传统对抗攻击的理论框架,未能充分利用LLMs特有的强大推理能力。此外,现有的评估指标(如平均攻击成功率, Attack Success Rate, ASR)往往是简单的二元判断,无法衡量响应的实际“有用性”(usefulness),且在缺乏真实答案(ground-truth)的情况下难以准确评估越狱响应的质量。因此,本研究旨在提出一种新型的、能有效利用LLMs推理能力的越狱方法,并辅以更精细化的评估指标。
PANDORA方法的核心工作流程包含四个协同工作的子模块,构成了一个完整的攻击流水线,旨在将一个初始的恶意查询(或称“钓鱼”攻击)成功转化为从受害LLM中获取的详细有害响应。其具体流程如下:
分解器(Decomposer)模块:首先,PANDORA接收一个初始的、可能直接被受害LLM拒绝的有害输入提示。分解器模块的任务是将这个整体攻击分解为S个更细致、更隐蔽的子查询。例如,对于一个询问“如何制造传播假新闻的消息”的攻击,分解器会将其分解为诸如“制造假新闻的目的是什么?”、“假新闻的目标受众是谁?”、“创建假新闻用了哪些技术?”、“如何有效地传播假新闻?”以及“传播假新闻的后果是什么?”等一系列看似独立且危害性更不明显的子问题。这种分解利用了LLMs的推理链条思维,将攻击意图分散隐藏,降低了单个查询触发安全机制的概率。分解过程采用了一个特定的提示模式来完成。
再制造器(Re-fabricator)模块:尽管子查询的隐蔽性增强,但部分子查询仍可能被受害LLM的安全机制检测并拒绝。此时,再制造器模块介入,对被拒绝的子查询进行“重铸”或改写,使其变得更加无害和隐蔽,同时尽可能保留原查询的核心意图。例如,如果子查询“用于创建假新闻的技术有哪些?”被拒绝,再制造器会将其改写为“我们应该防止哪些传播假新闻的技术?”,提问角度从“如何做”转变为“如何防”,更容易绕过安全审查。该模块同样通过特定的提示指令来实现。
与受害LLM交互并提取关键信息:经过分解和可能的重铸后,所有S个子查询被依次提交给受害LLM(即被攻击的目标模型,如GPT-4、LLaMA2-7B-Chat等)。对于每个成功的子查询,模型会返回一个子响应。当所有子查询都获得响应后,提取器(Extractor)模块开始工作。它从每个子响应中提取出回答原始攻击问题所需的“原子性事实”(atomic facts)或关键信息点,形成一系列子主张(sub-claims)。
总结推理器(Summary Reasoner)模块:收集到所有子主张后,总结推理器模块负责将这些零散的信息整合起来,结合原始的攻击目标,生成一个全面、详细的最终响应。这个响应本质上是基于受害LLM给出的子响应内容,进行综合推理和重组后形成的答案。
验证与迭代:为了确保最终响应的质量和忠实于受害LLM的输出(而非仅来自攻击者自身的知识),PANDORA引入了一个验证步骤。根据对受害LLM是白盒(white-box, 可访问模型内部状态)还是黑盒(black-box, 仅能通过API调用)访问权限的不同,采用了两种验证策略。对于白盒模型,使用滑动窗口困惑度(scrolling perplexity score)来评估最终响应与受害模型生成文本的似然程度。对于黑盒模型,则使用GPT-4作为评判员,评估最终响应在多大程度上回答了原始攻击问题(即GPT-4-metric得分)。如果验证失败(得分低于阈值),则意味着最终响应不够好,系统会回溯:提取器会从已收集的子主张中提取关键信息,反馈给分解器,让其基于这些额外信息重新优化和生成新的子查询,开始新一轮的迭代攻击。这一过程持续进行,直到生成一个通过验证的响应,或达到预设的最大查询次数限制。
除了上述完整的PANDORA框架,研究者还提出了一个高效的蒸馏版本PANDORA*。他们为每个子模块精心构建了特定的微调数据集,并将原本使用的较大模型(如WizardLM-7B)的知识蒸馏到仅拥有1.6亿参数的轻量级LLaMA-1模型中。这使得每个子模块的参数量仅为完整版的约2.3%,大大降低了计算和内存开销,提高了攻击的实用性和效率。
实验方面,本研究在多个主流受害LLM上进行了广泛的评估。实验使用AdvBench数据集的子集作为攻击目标,包含50个跨越32个类别的有害信息请求提示。受害模型涵盖了开源白盒模型(LLaMA2-7B-Chat, Vicuna-7B)和闭源黑盒模型(GPT-3.5, GPT-4)。为了模拟真实世界的防御环境,研究还在LLaMA2-7B-Chat模型上测试了PANDORA在额外防御机制(如困惑度过滤、SmoothLLM和LLM自防御)下的表现。作为对比的基线方法包括GCG、AutoDAN、DeepInception和TAP等当前最先进的越狱技术。
在评估指标上,除了传统的基于关键词的攻击成功率(ASR)和使用GPT-4打分的GPT4-metric外,本研究创新性地提出了两个无需真实答案即可评估响应质量的新指标: * 提示对齐句子相似度(Prompt-Aligned Sentence Similarity, PASS)得分:将最终响应分割成句子,计算每个句子与原始攻击提示在嵌入空间中的相似度。超过设定阈值(实验中为0.3)的句子被视为“成功”回答了提示。PASS得分是成功句子占总句子数的百分比。该指标旨在衡量响应内容与攻击意图的相关性和详细程度。 * 对抗性命名实体识别(Adversarial-Named Entity Recognition, Adv-NER)得分:根据攻击提示所属的类别(如涉及人物、地点、药物等),使用NER模型(如BERT-base-NER和biomedical-ner-all)识别最终响应中相关的命名实体。Adv-NER得分是识别出的目标实体数量与总查询数的比例。该指标用于评估响应中包含具体、可信信息的程度,一个成功的越狱响应通常应包含更多相关实体。
实验结果显示,PANDORA在多个受害模型上都显著超越了现有的先进越狱方法。在具有较强安全防护的LLaMA2-7B-Chat和GPT-4模型上,PANDORA的表现尤其突出。具体数据表明,在LLaMA2-7B-Chat上,PANDORA的ASR达到91.0%,远高于DeepInception的77.5%和其他基线方法。在GPT-4上,其ASR更是高达96.7%,而DeepInception为62.0%,TAP仅为36.0%。即使在面对额外的防御机制时,PANDORA也保持了很高的成功率,例如在困惑度过滤、SmoothLLM和LLM自防御下,其对LLaMA2-7B-Chat的ASR分别达到95.43%、94.32%和44.3%,表现远超其他方法。值得注意的是,高效的蒸馏版本PANDORA*在参数量大幅减少的情况下,仍能在GPT-3.5和GPT-4上分别取得93.0%和92.5%的平均ASR,证明了该方法在效率和效果上的优越平衡。
消融研究进一步验证了各子模块的作用。实验发现,再制造器模块是PANDORA中最重要的组件,移除它会导致攻击成功率在LLaMA2-7B-Chat和GPT-4上分别大幅下降至约66.5%和62.3%。而移除提取器或总结推理器对性能的影响相对较小。这证明了将攻击意图分解并动态重构以绕过防御是PANDORA成功的关键。此外,研究还对比了直接查询未经审查的WizardLM-7B和使用分解子查询两种方式,结果显示分解子查询的方式能获得更高的ASR和GPT4-metric得分,说明即使面对一个本身无害的模型,分解式提问也能激发出更高质量(从攻击者角度看)的响应,这进一步印证了利用多步推理策略的有效性。
基于上述研究流程和结果,本研究得出了明确的结论:PANDORA是一种新颖且高效的LLM越狱方法,它通过协同工作的钓鱼代理和分解式推理,有效利用了LLMs的多步推理能力,将对抗性提示拆解为更隐蔽的子查询,从而成功地对齐并受到严格安全防护的LLMs实现了高成功率的越狱攻击。实验证明,该方法在多个主流模型上均优于现有技术,即使其轻量级蒸馏版本也表现出色。
本研究的价值体现在多个层面。从科学价值看,它首次系统地将LLMs自身的复杂推理能力用于设计和增强对抗性攻击,开辟了越狱研究的新思路,深化了我们对LLM安全漏洞本质的理解,特别是在模型“逻辑遵从性”可能被滥用以绕过“内容审查”方面。它揭示了仅依赖表层关键词过滤或简单拒绝模式的防御机制的局限性。从应用价值看,PANDORA及其评估指标为LLM的红队测试和安全评估提供了更强大、更贴近现实威胁的工具和衡量标准。其提出的PASS和Adv-NER指标,为在缺乏真实答案情况下评估越狱攻击的实际“信息质量”和“有用性”提供了可行的量化方法,超越了简单的二元成功判断。此外,高效的蒸馏版本展示了在资源受限环境下进行安全测试的潜力。
本研究的亮点和重要发现包括: 1. 方法论的创新性:PANDORA是首个明确利用LLMs多步推理能力进行越狱攻击的方法。它将传统的“单点突破”式攻击,转变为一种“分而治之、迂回渗透”的协作式、多步骤攻击流程。 2. 强大的攻击效果:在多个具有强大安全措施的SOTA模型上实现了极高的攻击成功率,显著超越了现有方法,证明了其策略的有效性。 3. 高效的轻量化版本:通过知识蒸馏技术,成功将攻击系统压缩到极小的参数量(每个模块160M参数),同时保持了很强的攻击能力,这对于实际安全评估的部署具有重要意义。 4. 新颖的评估指标体系:提出的PASS和Adv-NER指标,从响应相关性和信息丰富度两个维度补充了现有评估体系,推动了越狱攻击评估从“是否成功”向“成功质量如何”的转变。 5. 对防御的挑战:实验表明,即使在模型叠加了如困惑度过滤、SmoothLLM等专门防御机制后,PANDORA仍能保持较高的攻击成功率,这为下一代LLM安全防护的设计提出了严峻挑战和明确方向。
总而言之,PANDORA研究不仅展示了一种新型强大的越狱攻击手段,更重要的是,它通过利用模型自身的“智能”来击败其“安全护栏”,深刻地揭示了当前基于对齐和规则的安全范式可能存在的深层次脆弱性。这项工作促使研究社区必须重新思考如何构建更加鲁棒、能够抵御此类“推理滥用”攻击的LLM安全体系。