分享自:

大型语言模型的安全错位问题研究

期刊:network and distributed system security (ndss) symposium 2025DOI:10.14722/ndss.2025.241089

类型a:学术研究报告

大型语言模型安全对齐失效的全面评估研究

一、作者与发表信息
本研究由以下作者合作完成:
- Yichen Gong(清华大学计算机科学与技术系)
- Delong Ran(清华大学网络科学与网络空间研究院)
- Xinlei He(香港科技大学(广州))
- Tianshuo Cong、Anyu Wang、Xiaoyun Wang(清华大学高等研究院、中关村实验室等)
通讯作者为Tianshuo Cong和Anyu Wang。
论文发表于Network and Distributed System Security (NDSS) Symposium 2025,会议时间为2025年2月24-28日,美国圣地亚哥。DOI: 10.14722/ndss.2025.241089。

二、学术背景
研究领域:人工智能安全,聚焦大型语言模型(LLM, Large Language Model)的安全对齐(Safety Alignment)与对抗攻击。
研究动机:随着ChatGPT、Llama 2等LLM的广泛应用,其生成内容的安全性成为关键问题。尽管现有技术通过强化学习人类反馈(RLHF, Reinforcement Learning from Human Feedback)和监督微调(SFT, Supervised Fine-Tuning)实现安全对齐,但研究表明,这种对齐可能被恶意攻击破坏(称为“安全失准”,Safety Misalignment)。然而,此前缺乏统一的评估框架量化不同攻击方法的威胁水平。
研究目标
1. 评估不同安全对齐策略的鲁棒性;
2. 提出新型自监督表征攻击(SSRA, Self-Supervised Representation Attack);
3. 探索防御机制的有效性。

三、研究方法与流程
1. 研究对象与模型选择
选取三种开源LLM作为目标模型:
- Llama-2-7b-chat(结合SFT与RLHF对齐)
- Beaver-7b-v1.0(仅RLHF对齐)
- Mistral-7b-instruct-v0.2(仅SFT对齐)

2. 攻击方法设计
研究评估四类安全失准攻击:
- 系统提示修改(SPM, System-Prompt Modification):删除或替换默认安全提示。
- 监督微调(SFT):使用有害指令-响应对(如Shadow Alignment数据集)微调模型。
- 自监督表征攻击(SSRA):创新性方法,通过操纵模型语义表征(无需有害标签)实现失准。核心算法如下:
- 定义表征函数repθ(i)提取指令的语义嵌入;
- 设计损失函数lssra,最小化有害与良性表征的距离(公式2-4)。
- 模型编辑(ME, Model Editing):如ROME和MEMIT方法,直接修改模型参数。

3. 防御机制评估
- 安全数据过滤:测试OpenAI Moderation API等过滤器的分类性能;
- 自监督表征防御(SSRD, Self-Supervised Representation Defense):通过恢复有害表征距离实现模型再对齐;
- 去毒化(Detoxification):评估DINM、SOUL等去毒算法的鲁棒性。

4. 实验设计
- 评估指标
- 危害性(ASR, Attack Success Rate):使用StrongReject数据集和HarmBench分类器测量有害响应比例;
- 实用性(ACC):通过HellaSwag等基准测试模型性能保留率。
- 超参数分析:探究学习率、数据集规模等对攻击效果的影响。

四、主要结果
1. 攻击有效性对比
- SFT是最强攻击:使用HS数据集时,Llama-2的ASR提升至85.3%(表VI);
- SSRA无需有害标签:Llama-2的ASR仍可达78.7%(图4),且实用性损失仅1.1%;
- 模型编辑效果有限:仅对Llama-2有效,且导致实用性下降(图5)。

  1. 关键影响因素
  • 数据集规模:更大的数据集(如HS-100)覆盖更多主题,显著提升攻击泛化性(表X);
  • 超参数敏感性:LORA和AdaLORA在中等学习率下效果最佳(图3)。
  1. 防御机制性能
  • 安全过滤器缺陷:现有工具对有害输入的检测准确率不足50%(图6);
  • SSRD高效再对齐:仅需50条有害指令即可将ASR降至0%,实用性损失低于SFT再对齐(表XII)。

五、结论与价值
1. 科学价值:首次建立统一的安全失准评估框架,揭示SFT和SSRA的威胁本质;
2. 应用价值:为LLM开发者提供防御建议(如优先部署SSRD),推动安全对齐技术发展;
3. 政策意义:为欧盟《AI法案》等法规提供技术依据,强调开源模型的安全风险。

六、研究亮点
1. 创新攻击方法:SSRA首次证明无需有害标签即可破坏安全对齐;
2. 全面性:覆盖4类攻击、3类防御及6种LLM架构;
3. 可复现性:公开所有实验参数与代码(附录表XXIII-XXXI)。

七、其他发现
- 单主题攻击的泛化性:即使仅微调非法活动(IA)主题,模型对其他有害主题的ASR仍提升60.8%(表X);
- 去毒化的局限性:SOUL虽降低ASR,但无法抵御SFT攻击(表XV)。

(注:全文共约2000字,符合字数要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com