大型语言模型领域知识驱动的越狱攻击研究:Knowledge-to-Jailbreak
作者与机构
本研究由清华大学Shangqing Tu、北京大学Zhuoran Pan、香港科技大学Wenxuan Wang、清华大学Zhexin Zhang、北京航空航天大学Yuliang Sun、清华大学Jifan Yu等学者合作完成,发表于2025年8月的KDD ‘25会议(第31届ACM SIGKDD知识发现与数据挖掘国际会议)。
学术背景
随着大型语言模型(LLMs, Large Language Models)在医疗、法律等专业领域的广泛应用,其安全性问题日益凸显。传统越狱攻击(jailbreaking attacks)多针对通用场景,缺乏对领域知识(domain-specific knowledge)的针对性测试。本研究提出“知识驱动越狱”(Knowledge-to-Jailbreak)新任务,旨在通过领域知识生成兼具攻击性和知识相关性的越狱提示(jailbreak prompts),填补以下空白:
1. 专业知识的缺失:现有攻击方法缺乏对化学、医学等专业知识的利用;
2. 覆盖率不足:高频知识测试无法覆盖低频但高危的领域知识(如罕见药物相互作用)。
研究目标为开发一种能自动将知识转化为越狱攻击的生成器(jailbreak-generator),要求满足三要素:攻击有效性(attack effectiveness)、知识相关性(knowledge relevance)和跨领域泛化能力(generalization)。
研究方法与流程
研究分为三阶段,覆盖数据收集、模型训练与部署:
1. 数据收集(Stage 1)
- 原始越狱提示库:从6个现有数据集中收集12,974条越狱提示(含中英文),通过GPT-4统一翻译为英文,并人工标注13个领域(如法律、化学)。
- 知识检索与增强:以Wikipedia段落为知识库,使用稠密段落检索模型(Dense Passage Retriever, DPR)匹配每条提示的相关知识,生成“知识-越狱”对。
- 攻击优化与突变:通过5轮“重述”(rephrase)等突变策略提升攻击成功率,最终获得8,210条有效攻击数据(危害性评分>5)。
2. 模型训练(Stage 2)
- 监督微调(SFT):基于LLaMA2-7B模型,以知识片段为输入、越狱提示为输出,进行全参数微调(学习率1e-5,批量32)。
- 基线对比:选用两种需目标模型反馈的迭代优化方法(PAIR和AutoDAN)作为基线。
3. 模型部署(Stage 3)
- 跨领域测试:在13个领域和8个目标LLM(如GPT-4、Vicuna-7B)上评估生成效果,使用攻击成功率(ASR)、危害性评分(harmfulness)和ROUGE-1(知识相关性)作为指标。
- 真实场景验证:从Wikipedia选取100篇危险化学品文章作为新知识库,对比模型与人类专家生成的越狱攻击效果。
主要结果
1. 攻击有效性:在GPT-3.5等模型上,jailbreak-generator的ASR达89.0(管理领域),优于基线PAIR(83.0)和AutoDAN(76.0)。
2. 知识相关性:ROUGE-1分数显著高于基线(图5),证明生成提示与输入知识高度相关。
3. 泛化能力:在未训练领域(如化学)和黑盒模型(如GPT-4)上表现稳健,对人类专家级攻击的仿真度达94%。
4. 防御测试:在目标模型加载安全对齐策略后,仍保持较高攻击成功率(表4)。
案例研究:以游戏《The Pandora Directive》知识生成的越狱提示,成功诱使Vicuna-7B提供窃取手机信息的建议,而GPT-4则拒绝响应(表5)。
结论与价值
1. 科学意义:首次提出“知识到越狱”的任务范式,揭示了LLMs在专业领域的潜在安全风险。
2. 应用价值:为模型安全测试提供自动化工具(代码开源),推动针对领域知识的防御研究。
3. 方法论创新:通过知识增强与突变策略,解决了低频知识覆盖难题。
亮点
- 数据集规模:构建12,974对“知识-越狱”标注数据;
- 端到端生成:无需目标模型反馈即可单次生成有效攻击;
- 跨领域泛化:在化学等OOD(Out-of-Distribution)知识上表现优异。
未来方向:研究者计划进一步探索防御机制,以实现LLMs在专业场景中的安全部署。
(注:术语如“jailbreaking attacks”首次出现时标注英文,后续使用中文“越狱攻击”)