这篇文档属于类型b(综述类论文),以下是根据要求生成的学术报告内容:
作者及机构
本论文由Yanxu Mao(河南大学软件学院)、Tiehan Cui(河南大学软件学院)、Peipei Liu(中国科学院信息工程研究所/中国科学院大学网络空间安全学院)、Datao You(河南大学软件学院)和Hongsong Zhu(中国科学院信息工程研究所/中国科学院大学网络空间安全学院)共同完成,发表于Journal of LaTeX Class Files 2023年8月刊。
主题
论文题为《From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem》,系统综述了大型语言模型(LLMs, Large Language Models)、多模态大模型(MLLMs, Multimodal LLMs)和智能代理(Agents)生态中越狱攻击(Jailbreak Attacks)与防御策略的研究进展,填补了现有综述在跨模态、多智能体安全等领域的空白。
论文首先梳理了从LLMs到MLLMs再到Agents的技术发展路径,指出模型能力的扩展伴随更复杂的安全风险:
- LLMs:依赖纯文本交互,安全漏洞集中于提示词注入(Prompt Injection)和对抗样本攻击(Adversarial Examples)。
- MLLMs:多模态输入(如图像、音频)扩大了攻击面,例如通过对抗图像绕过文本过滤器(如CLIP模型的视觉漏洞)。
- Agents:智能代理的自主决策能力(如工具调用、记忆管理)引入了级联风险(Cascading Risks),例如通过污染知识库(Knowledge Base Poisoning)操控代理行为。
支持证据:
- 引用OpenAI的缩放定律(Scaling Laws)说明模型参数增长与安全风险的关联(如GPT-3到PaLM的参数激增)。
- 案例:GPT-4V(视觉-文本模型)因跨模态对齐缺陷易受攻击(如[33]研究的图像劫持攻击)。
论文提出从攻击影响和攻击者权限两个维度对越狱技术分类:
- 攻击影响维度:
- 训练阶段攻击:包括后门攻击(Backdoor Attack)、蒸馏攻击(Distillation Attack)和数据篡改(Tampering Attack),通过污染训练数据植入恶意行为模式。
- 推理阶段攻击:如提示词攻击(Prompt Attack)和对抗链攻击(Jailbreak Chain),通过精心设计的输入诱导模型违规输出。
- 攻击者权限维度:
- 白盒攻击(White-box):需访问模型内部参数,如Zou等[80]的GCG算法通过梯度优化生成通用对抗后缀。
- 黑盒攻击(Black-box):仅依赖输入-输出交互,如PAIR算法[25]通过迭代优化提示词绕过防御。
典型案例:
- MLLMs攻击:VoiceJailbreak[36]利用情感模拟音频诱导模型输出违规内容,成功率提升40%。
- Agents攻击:AgentPoison[38]通过毒化长期记忆(Long-term Memory)操控代理决策。
论文将防御机制分为响应时机和技术手段两类:
- 响应时机:
- 输入防御:如SHIELD系统[114]通过N-gram模型检测违禁词。
- 输出防御:如Self-Defend[129]利用影子模型(Shadow LLM)实时过滤有害输出。
- 联合防御:结合输入输出检测,如Renellm[26]的多策略融合框架。
- 技术手段:
- 规则/启发式防御:基于关键词黑名单或困惑度检测(Perplexity Filter)。
- 机器学习防御:如RDS(Root Defence Strategy)[117]通过解码器端安全评分修正输出。
实验数据:
- SAP数据集[88]测试显示,联合防御策略可将攻击成功率从66.4%降至3.6%。
论文指出当前研究的不足:
- 数据集:多数仅覆盖单模态文本(如AdvBench[80]),缺乏多模态(如Trijail[89])和跨文化样本。
- 评估指标:依赖人工评估(Human Evaluation)和Perspective API,但对隐喻或长文本检测效果差。
改进方向:
- 提出构建动态更新的多模态基准(如MM-SafetyBench[94])。
论文提出四个关键领域:
1. 多智能体安全:研究代理间交互的传染性风险(如Tan等[72]的恶意内容间接传播)。
2. 混合攻击分类学:需建立跨模态攻击的统一理论框架。
3. 实验标准化:呼吁公开攻击-防御评估协议(如攻击成功率ASR的计算方法)。
4. 实时防御:开发轻量级对抗检测模块(如Mantis[124]的在线学习机制)。
亮点:
- 全面性:涵盖从传统文本攻击到新兴多模态、多代理攻击的200+文献。
- 前瞻性:指出Agent-specific安全问题的研究空白(如工具链漏洞)。
- 实用性:提供开源工具链参考(如JailBreakHub[28]的社区化攻击库)。
(报告总字数:约1800字)