本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容的学术报告:
作者与机构
本文的主要作者包括Xiaoyu Zhang(西安交通大学)、Cen Zhang(南洋理工大学)、Tianlin Li(南洋理工大学)、Yihao Huang(南洋理工大学)、Xiaojun Jia(南洋理工大学)、Ming Hu(南洋理工大学)、Jie Zhang(CFAR, A*STAR, 新加坡)、Yang Liu(南洋理工大学)、Shiqing Ma(马萨诸塞大学阿默斯特分校)以及Chao Shen(西安交通大学)。该研究于2025年1月发表在《ACM Transactions on Software Engineering and Methodology》期刊上。
学术背景
随着大语言模型(Large Language Models, LLMs)和多模态大语言模型(Multi-modal LLMs, MLLMs)的广泛应用,基于提示词(prompt-based)的攻击逐渐成为这些系统的主要安全威胁。这些攻击包括越狱攻击(jailbreaking attacks)和劫持攻击(hijacking attacks),前者旨在绕过模型的安全机制生成有害内容,后者则通过精心设计的提示词操纵模型执行攻击者期望的任务。现有的检测方法通常针对特定攻击类型设计,难以应对多种攻击模式和跨模态攻击。为了解决这一问题,作者提出了JailGuard,一个通用的检测框架,旨在检测文本和图像模态的提示词攻击。
研究流程
研究主要分为以下几个步骤:
问题定义与框架设计
研究首先定义了基于提示词攻击的两大类型:越狱攻击和劫持攻击。越狱攻击通过精心设计的提示词绕过模型的安全机制,生成有害内容;劫持攻击则通过注入特定指令,操纵模型执行攻击者期望的任务。为了检测这些攻击,作者提出了JailGuard框架,其核心思想是攻击提示词比良性提示词更脆弱,通过对输入进行变异(mutation)并分析模型响应的差异来识别攻击。
变异器设计与实现
JailGuard框架的核心是变异器(mutator),用于对输入提示词进行微小的修改,生成多个变体。作者设计了18种变异器,包括16种随机变异器和2种语义驱动的目标变异器。随机变异器包括字符替换、插入、删除、标点插入、同义词替换和翻译等操作;目标变异器则通过分析提示词中的重要内容,有针对性地进行修改。此外,作者还提出了一种变异器组合策略,通过结合多种变异器的优势,提高检测的泛化能力。
数据集构建
为了评估JailGuard的有效性,作者构建了一个包含11,000个样本的数据集,涵盖了15种已知的提示词攻击类型。这些攻击包括文本和图像模态的越狱攻击和劫持攻击。数据集中的攻击样本均经过验证,确保能够成功绕过目标模型的安全机制。此外,数据集还包含大量良性样本,以模拟真实场景中的数据分布。
实验设计与评估
作者进行了大规模实验,使用500万付费token来评估JailGuard的性能。实验对比了12种现有的检测方法,包括Azure内容检测器(Azure Content Detector)和SmoothLLM等。实验结果表明,JailGuard在文本和图像输入上的检测准确率分别达到86.14%和82.90%,显著优于现有方法。此外,JailGuard的变异器组合策略进一步提高了检测效果,在多种攻击类型上表现出色。
结果分析与讨论
实验结果显示,JailGuard能够有效检测多种提示词攻击,且在不同攻击类型上的检测准确率差异较小。例如,在文本攻击中,JailGuard对10种攻击类型的检测准确率超过70%,而在图像攻击中,其检测准确率也表现良好。此外,JailGuard在低预算场景下仍能保持较高的检测效果,表明其在实际应用中的潜力。
主要结果
1. 检测准确率
JailGuard在文本和图像输入上的检测准确率分别为86.14%和82.90%,显著优于现有方法。例如,在文本输入上,JailGuard比最好的基线方法提高了11.81%-25.73%;在图像输入上,其提升幅度为12.20%-21.40%。
变异器效果
不同的变异器在检测不同类型的攻击时表现出不同的效果。例如,同义词替换变异器在检测直接注入攻击时表现最佳,但在模板攻击中效果较差。变异器组合策略通过结合多种变异器的优势,显著提高了检测的泛化能力。
数据集贡献
作者构建的数据集是首个涵盖多种提示词攻击类型的综合性数据集,为未来的LLM系统安全研究提供了重要资源。
结论与意义
JailGuard是一个通用的提示词攻击检测框架,能够有效检测文本和图像模态的越狱攻击和劫持攻击。其核心创新在于利用攻击提示词的脆弱性,通过变异和响应差异分析来识别攻击。实验结果表明,JailGuard在检测准确率和泛化能力上均优于现有方法,具有重要的实际应用价值。此外,作者构建的数据集为未来的LLM安全研究提供了重要支持。
研究亮点
1. 通用性
JailGuard是首个能够同时检测文本和图像模态提示词攻击的框架,具有广泛的适用性。
创新性
通过变异器和组合策略的设计,JailGuard在检测多种攻击类型时表现出色,显著提高了检测的泛化能力。
数据集贡献
作者构建的数据集是首个涵盖多种提示词攻击类型的综合性数据集,为未来的研究提供了重要资源。
其他有价值的内容
作者在研究中还详细讨论了JailGuard的局限性,例如其在未见过攻击类型上的表现可能不佳,并建议用户在实际部署前根据目标LLM系统调整超参数。此外,作者开源了代码和数据集,以促进LLM安全研究的进一步发展。