分享自:

从LLMs到MLLMs再到智能体:LLM生态系统中越狱攻击与防御的新兴范式调查

期刊:journal of latex class files

这篇文档属于类型b(综述类论文),以下是根据要求生成的学术报告内容:


作者及机构
本论文由Yanxu Mao(河南大学软件学院)、Tiehan Cui(河南大学软件学院)、Peipei Liu(中国科学院信息工程研究所/中国科学院大学网络空间安全学院)、Datao You(河南大学软件学院)和Hongsong Zhu(中国科学院信息工程研究所/中国科学院大学网络空间安全学院)共同完成,发表于Journal of LaTeX Class Files 2023年8月刊。

主题
论文题为《From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem》,系统综述了大型语言模型(LLMs, Large Language Models)、多模态大模型(MLLMs, Multimodal LLMs)和智能代理(Agents)生态中越狱攻击(Jailbreak Attacks)与防御策略的研究进展,填补了现有综述在跨模态、多智能体安全等领域的空白。


主要观点与论据

1. LLM生态的演化与安全挑战

论文首先梳理了从LLMs到MLLMs再到Agents的技术发展路径,指出模型能力的扩展伴随更复杂的安全风险:
- LLMs:依赖纯文本交互,安全漏洞集中于提示词注入(Prompt Injection)和对抗样本攻击(Adversarial Examples)。
- MLLMs:多模态输入(如图像、音频)扩大了攻击面,例如通过对抗图像绕过文本过滤器(如CLIP模型的视觉漏洞)。
- Agents:智能代理的自主决策能力(如工具调用、记忆管理)引入了级联风险(Cascading Risks),例如通过污染知识库(Knowledge Base Poisoning)操控代理行为。
支持证据
- 引用OpenAI的缩放定律(Scaling Laws)说明模型参数增长与安全风险的关联(如GPT-3到PaLM的参数激增)。
- 案例:GPT-4V(视觉-文本模型)因跨模态对齐缺陷易受攻击(如[33]研究的图像劫持攻击)。

2. 越狱攻击的分类与方法论

论文提出从攻击影响攻击者权限两个维度对越狱技术分类:
- 攻击影响维度
- 训练阶段攻击:包括后门攻击(Backdoor Attack)、蒸馏攻击(Distillation Attack)和数据篡改(Tampering Attack),通过污染训练数据植入恶意行为模式。
- 推理阶段攻击:如提示词攻击(Prompt Attack)和对抗链攻击(Jailbreak Chain),通过精心设计的输入诱导模型违规输出。
- 攻击者权限维度
- 白盒攻击(White-box):需访问模型内部参数,如Zou等[80]的GCG算法通过梯度优化生成通用对抗后缀。
- 黑盒攻击(Black-box):仅依赖输入-输出交互,如PAIR算法[25]通过迭代优化提示词绕过防御。
典型案例
- MLLMs攻击:VoiceJailbreak[36]利用情感模拟音频诱导模型输出违规内容,成功率提升40%。
- Agents攻击:AgentPoison[38]通过毒化长期记忆(Long-term Memory)操控代理决策。

3. 防御策略的系统化框架

论文将防御机制分为响应时机技术手段两类:
- 响应时机
- 输入防御:如SHIELD系统[114]通过N-gram模型检测违禁词。
- 输出防御:如Self-Defend[129]利用影子模型(Shadow LLM)实时过滤有害输出。
- 联合防御:结合输入输出检测,如Renellm[26]的多策略融合框架。
- 技术手段
- 规则/启发式防御:基于关键词黑名单或困惑度检测(Perplexity Filter)。
- 机器学习防御:如RDS(Root Defence Strategy)[117]通过解码器端安全评分修正输出。
实验数据
- SAP数据集[88]测试显示,联合防御策略可将攻击成功率从66.4%降至3.6%。

4. 数据集与评估指标的局限性

论文指出当前研究的不足:
- 数据集:多数仅覆盖单模态文本(如AdvBench[80]),缺乏多模态(如Trijail[89])和跨文化样本。
- 评估指标:依赖人工评估(Human Evaluation)和Perspective API,但对隐喻或长文本检测效果差。
改进方向
- 提出构建动态更新的多模态基准(如MM-SafetyBench[94])。

5. 未来研究方向

论文提出四个关键领域:
1. 多智能体安全:研究代理间交互的传染性风险(如Tan等[72]的恶意内容间接传播)。
2. 混合攻击分类学:需建立跨模态攻击的统一理论框架。
3. 实验标准化:呼吁公开攻击-防御评估协议(如攻击成功率ASR的计算方法)。
4. 实时防御:开发轻量级对抗检测模块(如Mantis[124]的在线学习机制)。


论文价值与意义

  1. 学术价值:首次系统整合了LLMs、MLLMs和Agents的越狱攻防研究,提出分类学框架(图1)和评估矩阵(图8),为后续研究提供方法论基础。
  2. 应用价值:揭示智能代理的级联风险(如[41]研究的网络病毒代码生成),推动工业界优化安全架构(如知识库隔离机制)。
  3. 跨学科影响:融合网络安全、多模态学习和强化学习领域,促进AI安全领域的协同发展。

亮点
- 全面性:涵盖从传统文本攻击到新兴多模态、多代理攻击的200+文献。
- 前瞻性:指出Agent-specific安全问题的研究空白(如工具链漏洞)。
- 实用性:提供开源工具链参考(如JailBreakHub[28]的社区化攻击库)。


(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com