分享自:

X-Teaming:基于自适应多智能体的多轮越狱与防御

期刊:colm 2025

学术报告:X-TEAMING框架——多轮对话越狱攻击与防御的突破性研究

作者与机构
本研究由Salman Rahman(加州大学洛杉矶分校)、Liwei Jiang(华盛顿大学)、James Shiffer(加州大学洛杉矶分校)等9位研究者共同完成,其中前三位作者为同等贡献作者。论文发表于2025年COLING(Conference on Computational Linguistics)会议,标题为《X-TEAMING: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents》。


学术背景

研究领域与动机
本研究属于人工智能安全领域,聚焦大型语言模型(LLM)在多轮对话(multi-turn conversation)中的安全漏洞。尽管单轮攻击防御(single-turn safety)已较成熟,但现有研究表明,攻击者可通过在多轮对话中分散恶意意图(distributed malicious intent)绕过安全机制。例如,Claude 3.7 Sonnet等模型对单轮攻击近乎免疫,但对多轮攻击的防御仍存在显著漏洞。

研究目标
团队提出X-TEAMING框架,旨在:
1. 系统性探索多轮对话中无害交互如何升级为有害行为;
2. 开发一种自适应多智能体协作框架,生成高成功率(最高98.1%)和多样性的攻击场景;
3. 构建开源多轮安全训练数据集XGuard-Train(规模达30k样本,是此前最佳资源的20倍)。


研究流程与方法

1. 框架设计:两阶段自适应攻击流程

X-TEAMING由四个核心组件构成:
- Planner(规划器):生成多样化攻击计划,包括人物角色(persona)、上下文(context)和分轮次策略(turn-level plans)。
- Attacker(攻击器):执行动态多轮对话,基于历史交互调整查询。
- Verifier(验证器):实时评分模型响应(1-5分,5分表示完全服从有害行为)。
- Prompt Optimizer(提示优化器):采用TextGrad优化(基于文本梯度下降的自然语言提示优化算法),在评分下降时重构查询。

阶段1:战略攻击规划
- 对每个有害行为(harmful behavior),生成50种攻击计划,覆盖不同人物角色(如“担忧的父亲”“电影导演”)和策略(如“教育角度”“故事叙述”)。
- 通过迭代集(iterative sets)确保多样性,平均多样性得分达0.702(基于MiniLMv2嵌入相似性计算)。

阶段2:自适应攻击执行与优化
- 每轮对话最多7轮(T_max=7),若当前轮次评分下降,启动TextGrad优化(最多4次迭代)。
- 若初始计划失败,规划器扩展新轮次策略(如从“讨论社交媒体影响”转向“请求网络欺凌示例”)。

2. 实验设置

评估基准
使用HarmBench标准化测试框架,包含510种有害行为,覆盖13个风险类别(如网络安全、暴力内容)。

目标模型
测试对象包括闭源模型(GPT-4o、Claude 3.53.7 Sonnet、Gemini 2.0 Flash)和开源模型(Llama-3系列、DeepSeek-V3)。

基线对比
与单轮攻击方法(如GCG、PAIR)和多轮方法(如RACE、Crescendo、ActorAttack)对比,X-TEAMING在攻击成功率(ASR)和多样性上显著领先。


主要结果

1. 攻击有效性

  • 攻击成功率:在闭源模型中,X-TEAMING对Claude 3.7 Sonnet的ASR达96.2%,对GPT-4o达94.3%;在开源模型DeepSeek-V3上高达98.1%。
  • 效率:平均仅需3.5个计划、4.3轮对话即可成功,优于ActorAttack(8.7轮)和Crescendo(11.8轮)。
  • 类别差异:网络安全攻击(如漏洞利用)最易成功(ASR 100%),而化学武器和极端仇恨内容最难突破(ASR 0%)。

2. 攻击多样性

  • 计划多样性:比ActorAttack提升153%(嵌入相似性得分0.702 vs. 0.278)。
  • 执行多样性:攻击查询的多样性提升62%(得分0.466 vs. 0.288)。

3. 防御增强

  • XGuard-Train数据集训练的模型,多轮攻击抵抗能力平均提升34.2%(对比基于SafeMTData训练的模型)。
  • 单轮安全性能未受损,在WildGuard等12项基准测试中保持稳定。

结论与价值

科学价值
1. 揭示了多轮对话中分散恶意意图的漏洞机制,填补了单轮与多轮安全研究的鸿沟。
2. 提出首个结合多智能体协作与TextGrad优化的攻击框架,为后续防御研究提供基准。

应用价值
1. XGuard-Train作为最大开源多轮安全数据集,可直接集成至模型训练流程。
2. 框架支持动态生成新攻击样本,适应不断演化的安全威胁。


研究亮点

  1. 多策略融合:X-TEAMING首次整合心理学说服(如Foot-in-the-Door)、语义链(Chain of Attack)等多种攻击策略。
  2. 高适应性:通过实时评分与优化,框架能应对不同模型的拒绝模式。
  3. 开源生态:公开数据集、框架代码及训练模型,推动社区协作防御。

局限性
- 对极端暴力内容的攻击成功率较低,反映模型在此类硬性限制上的强鲁棒性。
- 依赖GPT-4o作为主要验证器,可能引入评估偏差(但与HarmBench分类器一致性达84.5%)。


其他贡献

  • 伦理声明:团队通过访问控制(如研究用途协议)降低双用途风险,强调开放研究对AI安全的必要性。
  • 资源扩展性:X-TEAMING可扩展至更多语言和模型,未来计划涵盖低资源语言场景。

(报告字数:约2100字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com