这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
ICLR 2025会议论文《Programming Refusal with Conditional Activation Steering》研究报告
一、作者与机构
本研究由Bruce W. Lee(宾夕法尼亚大学)与IBM Research团队的Inkit Padhi、Karthikeyan Natesan Ramamurthy等合作完成,发表于2025年国际学习表征会议(ICLR 2025)。研究代码已开源(GitHub.com/ibm/activation-steering)。
二、学术背景
研究领域为大型语言模型(LLM)的行为控制。现有激活导向(activation steering)方法通过修改模型内部激活向量(activation vectors)调整模型行为,但缺乏对输入内容的条件化选择(conditional control),导致模型可能对无害请求也产生拒绝响应。本研究提出条件激活导向(Conditional Activation Steering, CAST),通过分析LLM推理时的激活模式,实现基于输入内容的选择性拒绝(selective refusal),例如仅对仇恨言论或成人内容拒绝响应。
三、研究流程与方法
1. 框架设计
- 条件向量(condition vector):捕捉特定指令类别(如仇恨言论)在隐藏状态(hidden states)中的激活模式,作为触发行为修改的开关。
- 行为向量(behavior vector):传统激活导向中的“拒绝向量”,用于诱导拒绝行为。
- 条件判断机制:通过余弦相似度(cosine similarity)计算隐藏状态与条件向量的投影,若相似度超过阈值θ,则应用行为向量。公式化表示为:
[ h \leftarrow h + f(\text{sim}(h, \text{proj}_c h)) \cdot \alpha \cdot v ] 其中 ( f ) 为阶跃函数,( \alpha ) 为缩放因子。
数据集构建
向量提取与优化
模型测试
在Qwen、Llama等7个模型上评估,对比以下指标:
四、主要结果
1. 条件控制有效性
- CAST在全部测试模型中实现有害内容拒绝率平均提升45.8%(Qwen 1.8B)至64%(Hermes 2 Pro),无害请求拒绝率仅增加≤6%。
- 双重性(duality):翻转比较方向(如“>”改为“<”)可拒绝条件向量的补集(如仅响应法律建议)。
逻辑组合规则
领域约束应用
五、结论与价值
1. 科学价值
- 验证了LLM隐藏状态中不同指令类别的可分离性,为模型行为编程提供理论基础。
- 提出首个无需权重优化的条件化行为控制框架,扩展了激活工程(activation engineering)的维度。
六、研究亮点
1. 方法创新:首次将条件判断引入激活导向,通过相似度阈值实现“软开关”。
2. 效率优势:仅需单次前向传播计算条件,推理耗时线性增长(图6b),且性能随数据量快速饱和(图6a)。
3. 可解释性:通过TSNE可视化证明条件向量对隐藏状态空间的分割能力(图4a-c)。
七、其他发现
- 层间异质性:不同层的最佳干预方向可能相反(如层7需“<”,层4需“>”),反映语义表征的层次性。
- 社区贡献:开源工具包支持自定义规则,推动激活导向研究的可复现性。
(报告字数:约1,800字)