本研究的作者包括Junhao Zheng、Xidi Cai、Shengjie Qiu和Qianli Ma(通讯作者),均来自华南理工大学计算机科学与工程学院。该研究以会议论文形式发表于ICLR 2025。
本研究属于人工智能领域中的持续学习(Continual Learning)研究方向。随着大型语言模型(LLMs)的快速发展,研究者发现这些模型在持续学习过程中会出现令人困惑的现象:尽管经过大量训练,模型在接触新任务时仍会出现显著的性能下降。传统观点认为这是”灾难性遗忘”(catastrophic forgetting)的表现,即模型在学习新知识时会遗忘旧知识。然而,本研究团队观察到,即使模型经过10万条安全对齐数据的训练,仅接触10条身份转换示例就可能导致安全性能急剧下降,这种现象难以用单纯的知识遗忘来解释。
本研究旨在探索语言模型在持续学习中出现的”虚假遗忘”(spurious forgetting)现象。研究者假设性能下降可能并非源于知识丢失,而是由于任务对齐(task alignment)能力下降——即模型将已有知识应用于特定任务的能力减弱。研究目标包括:(1)验证虚假遗忘现象的存在;(2)分析其产生原因;(3)提出有效的缓解策略。
研究团队在两个持续学习场景中进行了初步实验:
安全对齐场景:使用Llama-2-7b-chat模型,先在10条身份转换实例上进行训练(AOa对齐),发现安全性能从100%降至0%。随后仅使用10条有害指令及其拒绝响应重新训练,安全性能又恢复至99%。
持续指令调优场景:在TRACE基准测试(包含8个多样化任务)上使用Llama-3-8b-instruct模型,观察到任务准确率会突然下降后又反弹的现象。
这些实验表明,性能下降可能并非真正的知识遗忘,而是任务对齐能力的暂时性丧失。
为精确控制变量,研究团队构建了”传记数据集”(biography dataset),包含20万个虚构人物,每人有6个属性(生日、出生城市、大学、专业、公司名称和公司城市)。数据集分为: - 预训练数据:描述个人属性的陈述句 - 微调数据:用于知识提取的问答对
这种设计确保新旧任务间的知识完全不重叠,便于区分任务对齐和知识保留的影响。
实验分为三个阶段: 1. 预训练阶段:在10万个人的传记数据上建立知识基础 2. 任务0阶段:在同一批人的问答数据上微调 3. 任务1阶段:在新增2万人的问答数据上训练
实验记录了模型在各阶段的性能变化、损失景观、权重更新和特征变化。
研究从四个维度分析虚假遗忘现象:
性能视角:发现学习任务1的最初150步优化中,任务0性能从近100%骤降至10%,但通过少量任务0数据重新训练可恢复性能,表明知识并未真正丢失。
损失景观视角:可视化显示任务0和任务1的优化方向在初始阶段相互矛盾,训练轨迹可分为两个阶段:前150步消除任务0对齐,后续步骤建立任务1对齐并学习新知识。
模型权重视角:通过奇异值分解分析权重更新角度,发现底部层(特别是输入嵌入层)在任务对齐中起关键作用,不同任务的更新方向接近正交。
特征视角:分析隐藏状态变化发现,特征表示的变化主要发生在底部层并向上传播,但不同任务对齐间的特征变化可以相互抵消。
实验证实了虚假遗忘现象的存在:性能下降主要源于任务对齐能力丧失而非知识遗忘。在传记数据集上,任务0准确率在前150步从100%降至10%,但知识恢复实验显示模型仍保留约96%的原始知识。
研究提出理论框架,将观察到的虚假遗忘归因于模型权重的正交更新。基于以下假设: - 残差网络结构 - 小权重范数假设 - 权重矩阵扰动假设
理论分析表明: - 输出偏移与特征主成分接近正交(命题4.6和4.7) - 最终输出的累积偏移与层数成正比(命题4.9) - 冻结底部层可减少偏移累积(推论F.5)
研究评估了多种持续学习方法对虚假遗忘的缓解效果:
现有方法:包括EWC(基于正则化)、LAMOL(基于生成回放)、任务向量(基于模型合并)和梯度投影等,效果均有限,最高仅将顺序微调(seq)准确率从11%提升至22%。
冻结策略(Freeze):固定模型底部层的策略表现突出,将seq准确率从11%提升至44%。分析表明,冻结底部层可有效防止任务0对齐被破坏,同时允许模型学习任务1的新知识。
研究在四个真实场景验证了冻结策略的有效性:
结果显示,冻结策略在不同任务类型、模型架构和训练规模下均能有效缓解虚假遗忘。
研究还发现: 1. 当新任务与LLMs已接触的任务格式相似时,虚假遗忘从第一个任务就开始出现 2. 当新任务引入全新格式和知识时,虚假遗忘通常从第二个任务开始出现 3. 数据回放(20%旧数据)可将任务0准确率提升至76.93%,显示旧数据对恢复任务对齐的重要性 4. 不同架构的LLMs(如Llama、Pythia)都表现出类似的虚假遗忘模式
这些发现为语言模型的持续学习策略设计提供了重要指导。