分享自:

语言模型持续学习中的虚假遗忘现象研究

期刊:ICLR 2025

语言模型持续学习中的”虚假遗忘”现象研究

作者与机构

本研究的作者包括Junhao Zheng、Xidi Cai、Shengjie Qiu和Qianli Ma(通讯作者),均来自华南理工大学计算机科学与工程学院。该研究以会议论文形式发表于ICLR 2025。

学术背景

本研究属于人工智能领域中的持续学习(Continual Learning)研究方向。随着大型语言模型(LLMs)的快速发展,研究者发现这些模型在持续学习过程中会出现令人困惑的现象:尽管经过大量训练,模型在接触新任务时仍会出现显著的性能下降。传统观点认为这是”灾难性遗忘”(catastrophic forgetting)的表现,即模型在学习新知识时会遗忘旧知识。然而,本研究团队观察到,即使模型经过10万条安全对齐数据的训练,仅接触10条身份转换示例就可能导致安全性能急剧下降,这种现象难以用单纯的知识遗忘来解释。

研究目的

本研究旨在探索语言模型在持续学习中出现的”虚假遗忘”(spurious forgetting)现象。研究者假设性能下降可能并非源于知识丢失,而是由于任务对齐(task alignment)能力下降——即模型将已有知识应用于特定任务的能力减弱。研究目标包括:(1)验证虚假遗忘现象的存在;(2)分析其产生原因;(3)提出有效的缓解策略。

研究方法与流程

1. 初步实验验证

研究团队在两个持续学习场景中进行了初步实验:

安全对齐场景:使用Llama-2-7b-chat模型,先在10条身份转换实例上进行训练(AOa对齐),发现安全性能从100%降至0%。随后仅使用10条有害指令及其拒绝响应重新训练,安全性能又恢复至99%。

持续指令调优场景:在TRACE基准测试(包含8个多样化任务)上使用Llama-3-8b-instruct模型,观察到任务准确率会突然下降后又反弹的现象。

这些实验表明,性能下降可能并非真正的知识遗忘,而是任务对齐能力的暂时性丧失。

2. 合成数据集构建

为精确控制变量,研究团队构建了”传记数据集”(biography dataset),包含20万个虚构人物,每人有6个属性(生日、出生城市、大学、专业、公司名称和公司城市)。数据集分为: - 预训练数据:描述个人属性的陈述句 - 微调数据:用于知识提取的问答对

这种设计确保新旧任务间的知识完全不重叠,便于区分任务对齐和知识保留的影响。

3. 控制实验设计

实验分为三个阶段: 1. 预训练阶段:在10万个人的传记数据上建立知识基础 2. 任务0阶段:在同一批人的问答数据上微调 3. 任务1阶段:在新增2万人的问答数据上训练

实验记录了模型在各阶段的性能变化、损失景观、权重更新和特征变化。

4. 多角度分析

研究从四个维度分析虚假遗忘现象:

性能视角:发现学习任务1的最初150步优化中,任务0性能从近100%骤降至10%,但通过少量任务0数据重新训练可恢复性能,表明知识并未真正丢失。

损失景观视角:可视化显示任务0和任务1的优化方向在初始阶段相互矛盾,训练轨迹可分为两个阶段:前150步消除任务0对齐,后续步骤建立任务1对齐并学习新知识。

模型权重视角:通过奇异值分解分析权重更新角度,发现底部层(特别是输入嵌入层)在任务对齐中起关键作用,不同任务的更新方向接近正交。

特征视角:分析隐藏状态变化发现,特征表示的变化主要发生在底部层并向上传播,但不同任务对齐间的特征变化可以相互抵消。

主要研究结果

1. 虚假遗忘的确认

实验证实了虚假遗忘现象的存在:性能下降主要源于任务对齐能力丧失而非知识遗忘。在传记数据集上,任务0准确率在前150步从100%降至10%,但知识恢复实验显示模型仍保留约96%的原始知识。

2. 理论分析

研究提出理论框架,将观察到的虚假遗忘归因于模型权重的正交更新。基于以下假设: - 残差网络结构 - 小权重范数假设 - 权重矩阵扰动假设

理论分析表明: - 输出偏移与特征主成分接近正交(命题4.6和4.7) - 最终输出的累积偏移与层数成正比(命题4.9) - 冻结底部层可减少偏移累积(推论F.5)

3. 解决方案评估

研究评估了多种持续学习方法对虚假遗忘的缓解效果:

现有方法:包括EWC(基于正则化)、LAMOL(基于生成回放)、任务向量(基于模型合并)和梯度投影等,效果均有限,最高仅将顺序微调(seq)准确率从11%提升至22%。

冻结策略(Freeze):固定模型底部层的策略表现突出,将seq准确率从11%提升至44%。分析表明,冻结底部层可有效防止任务0对齐被破坏,同时允许模型学习任务1的新知识。

4. 实际场景验证

研究在四个真实场景验证了冻结策略的有效性:

  1. 安全对齐(SA):减少越狱率
  2. 持续指令调优(CIT):在TRACE基准上提升测试分数
  3. 持续知识编辑(CKE):提高编辑效果和泛化能力
  4. 实例增量学习(IIL):改善记忆准确率

结果显示,冻结策略在不同任务类型、模型架构和训练规模下均能有效缓解虚假遗忘。

研究结论与价值

主要结论

  1. 首次在语言模型持续学习中识别出”虚假遗忘”现象
  2. 证实虚假遗忘主要由任务对齐丧失而非知识丢失引起
  3. 通过理论分析将现象归因于权重更新的正交性
  4. 提出冻结底部层的有效缓解策略

科学价值

  1. 重新定义了持续学习中的遗忘机制,区分了知识保留和任务对齐两个概念
  2. 为理解语言模型的学习动态提供了新视角
  3. 提出的理论框架可指导未来持续学习方法的设计

应用价值

  1. 冻结策略简单有效,无需存储旧数据,适合实际部署
  2. 在安全对齐、指令调优等关键应用场景中提升模型稳定性
  3. 为语言模型的持续学习提供了新的解决方案

研究亮点

  1. 现象发现:首次系统性地识别和定义了语言模型持续学习中的”虚假遗忘”现象。
  2. 方法创新:创造性地使用合成数据集控制变量,清晰分离任务对齐和知识保留的影响。
  3. 理论贡献:建立了正交更新与虚假遗忘的理论联系,为现象提供数学解释。
  4. 实用方案:提出的冻结策略简单高效,在多个实际场景中验证有效。
  5. 跨场景验证:涵盖安全对齐、指令调优、知识编辑和增量学习四大场景,证明发现的普适性。

其他有价值内容

研究还发现: 1. 当新任务与LLMs已接触的任务格式相似时,虚假遗忘从第一个任务就开始出现 2. 当新任务引入全新格式和知识时,虚假遗忘通常从第二个任务开始出现 3. 数据回放(20%旧数据)可将任务0准确率提升至76.93%,显示旧数据对恢复任务对齐的重要性 4. 不同架构的LLMs(如Llama、Pythia)都表现出类似的虚假遗忘模式

这些发现为语言模型的持续学习策略设计提供了重要指导。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com