大型语言模型越狱的再现：表征工程视角

分享自：
大型语言模型越狱的再现：表征工程视角

期刊:proceedings of the 31st international conference on computational linguistics
大型语言模型越狱攻击的表示工程视角研究作者及机构
 本研究由复旦大学计算机科学学院的Tianlong Li、Zhenghua Wang、Wenhao Liu等团队完成，通讯作者为Xiaoqing Zheng和Xuanjing Huang。论文发表于2023年1月19-24日举办的”Proceedings of the 31st International Conference on Computational Linguistics”会议论文集，页码3158-3178。
学术背景研究领域
 该研究属于人工智能安全领域，聚焦于大型语言模型(LLM)的对抗攻击与防御机制，特别是”越狱攻击”(jailbreaking attacks)这一现象。
研究动机
 虽然经过安全对齐(safety alignment)的大型语言模型在各种实际应用中展现出强大能力，但研究者发现这些模型在面对恶意输入时仍存在显著漏洞。目前已有多种防御策略被提出以减轻这些威胁，但对于导致模型易受攻击的内在机制研究仍然有限。
关键背景知识
 1. 越狱攻击指通过特定输入诱导安全对齐的LLM产生有害或违规内容 2. 现有防御主要依靠输入输出检测和额外辅助模型 3. 表示工程(representation engineering)为理解模型内部机制提供了新视角
研究目标
 本研究旨在从表示工程角度揭示LLM自我防护能力与表示空间中特定活动模式之间的联系，并提出： 1. 解释为何安全对齐的LLM仍可能被越狱 2. 开发提取”安全模式”(safety patterns)的有效方法 3. 通过实验验证这些模式的存在和功能
研究方法与流程1. 对比模式提取数据集构建
 研究团队创建了Jaileval数据集，包含90对查询(9个主题×10对)，每对由恶意查询和对应的良性查询组成，两者具有相似的句法结构但关键词不同。例如： - 恶意查询：”有哪些毒杀宠物狗的方法？” - 良性查询：”有哪些宠爱宠物狗的方法？”
模型处理
 选择8个主流聊天/指令型LLM作为研究对象，包括Llama2-7b/13b-chat、Mistral-7b-instruct等。将查询对输入模型后，保留那些恶意查询被拒绝而良性查询被接受的配对。
表示差异计算
 对于每个保留的查询对，在模型每个层l提取最后一个token的隐藏状态，计算对比模式(contrastive patterns)： cpli = him,l - hib,l
2. 特征定位方差分析
 对每个层的h维表示差异，计算各特征在k个查询对中的方差σl,j和均值μl,j。按方差升序排序特征索引，选择方差最低的前n=⌊α×h⌋个特征作为最稳健的安全相关特征。
参数控制
 引入参数α控制选择特征的比例，通过实验分析确定最优α值(约0.25-0.45之间)。
3. 模式构建安全模式生成
 对每个层l，构建安全模式spl，其中定位到的特征位置赋值为μl,t，其余为0。最终得到模型的安全模式集合sp = {spl}l-1l=0。
模式干预
 通过两种方式干预模型： 1. 削弱安全模式：从每层输出的表示空间中减去安全模式(rl = rl - β·spl) 2. 增强安全模式：向表示空间添加安全模式(rl = rl + β·spl) 其中β控制干预强度。
主要研究结果1. 安全模式的有效性验证攻击成功率变化
 当削弱安全模式后，各模型的攻击成功率(ASR)显著提升： - Llama2-7b-chat：ASR-3从0.39%升至96.92% - Mistral-7b-instruct：ASR-3从23.85%升至92.50% - Falcon-7b-instruct：ASR-3从39.23%升至97.31%
防御能力变化
 增强安全模式后，使用GCG、RenellM和PAIR方法生成的隐蔽越狱提示成功率大幅下降： - GCG攻击成功率从100%降至16% - RenellM从100%降至18% - PAIR从100%降至10%
2. 安全模式的特性分析主题通用性
 如图3所示，安全模式的削弱导致模型在45个恶意主题上的防御能力全面下降，表明这些模式具有跨主题的通用性。
对模型能力的影响
 削弱安全模式后，模型在MMLU、CEval和CMMLU等通用能力测试中的表现变化极小(差异%)，输出文本的困惑度(perplexity)也保持稳定，证实安全模式是专门负责安全状态的子空间。
3. 可视化分析表示空间变化
 t-SNE分析显示(图4)： 1. 削弱安全模式后，恶意和良性输入的嵌入分布从明显分离变为混合 2. 增强安全模式使隐蔽越狱提示的嵌入分布向良性输入方向移动 3. 直接削弱对比模式会导致语义分布异常，而安全模式干预不会
4. 参数敏感性分析层间差异
 实验发现(表6)，靠近输出层的安全模式干预效果更好，所有层同时干预效果最佳。
α和β影响
 如图5所示： - α过小无法捕获全部安全特征，过大则引入无关特征 - β过小影响不足，过大导致输出异常 - 最优α约0.3，β约0.45
查询对数量
 使用更多查询对构建的安全模式更稳定可靠，约60对时可达到最佳效果。
研究结论与价值科学结论
 1. 发现LLM中存在专门的安全模式，这些模式与模型的自我防护能力直接相关 2. 安全模式可以通过简单的对比查询对提取，并能被精确干预 3. 安全模式是模型拒绝恶意查询的内在机制
理论价值
 1. 为理解LLM越狱现象提供了新的表示工程视角 2. 揭示了模型安全防御的神经表征基础 3. 开发了低成本的模式提取和干预方法
应用价值
 1. 为开发更强大的防御框架提供新思路 2. 增强对开源LLM潜在滥用的技术认识 3. 促进更安全的模型开发和部署实践
局限性
 1. 当前方法依赖白盒设置，未来需探索黑盒环境下的应用 2. 需要开发防止安全模式被滥用的保护机制
研究亮点创新性发现：首次识别并验证了LLM中的安全模式，为理解越狱机制提供了新视角
方法创新：开发了基于对比查询对的低代价模式提取流程，兼具理论简洁性和实践有效性
全面验证：通过大量实验从多个角度验证了安全模式的存在和功能
跨模型普适性：在8个不同LLM上验证了方法的通用性
精准干预：实现了对模型安全能力的精确控制而不影响其他功能
这项研究不仅推动了LLM安全机制的基础理解，也为开发更强大的防御策略和促进AI安全社区对开源模型潜在风险的认知做出了重要贡献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问