这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
DF-CL:基于离散傅里叶变换的高效持续学习框架
作者与发表信息
本研究由匿名作者团队完成,目前以会议论文形式提交至ICLR 2026,处于双盲评审阶段。论文标题为《Fourier Minds, Forget Less: Discrete Fourier Transform for Fast and Robust Continual Learning in LLMs》。
研究领域与动机
该研究属于持续学习(Continual Learning, CL)与大语言模型(Large Language Models, LLMs)高效微调的交叉领域。持续学习的核心挑战是灾难性遗忘(catastrophic forgetting)——模型在学习新任务时遗忘旧任务知识。现有方法(如LoRA)通过低秩适配减少参数量,但任务数量增加时,累积参数仍会显著增长,难以适应资源受限场景。
科学问题
如何在大语言模型中实现参数高效(parameter-efficient)且抗遗忘的持续学习?传统方法依赖任务专属参数模块(如适配器或提示词),导致内存开销随任务数量线性增长。
目标
提出DF-CL(Discrete Fourier Continual Learning)框架,利用稀疏傅里叶变换(Sparse Fourier Transform, SFT)的频谱正交性,将共享知识与任务专属知识解耦,从而减少参数量的同时提升稳定性。
DF-CL基于离散傅里叶变换对模型权重更新进行频谱分解:
- 全局共享参数:低频分量编码跨任务的通用知识。
- 任务专属参数:高频分量捕获任务特异性特征,通过正交基索引冲突(coefficient index selection conflict)确保各任务参数空间独立。
关键步骤:
1. 频谱矩阵构建:随机初始化共享频谱入口矩阵(spectral entry matrix)( M \in \mathbb{R}^{2 \times d} ),每个任务分配专属系数向量 ( x_t \in \mathbb{R}^k )。
2. 逆傅里叶重构:通过逆变换(IDFT)将频谱矩阵转换为空间域权重更新 ( \Delta W ),叠加至预训练权重 ( W_0 )。
3. 任务权重合并:采用最大幅值合并策略(max-magnitude merging),选择各参数位置上幅值最大的任务专属更新,保留重要知识。
研究对象:
- 模型:T5-large(24层)和Llama2-7B(32层),聚焦查询(query)与值(value)矩阵的适配。
- 数据集:15个NLP任务,包括文本分类(如Amazon/Yelp评论)、自然语言推理(MNLI、CB)等,分为标准基准(4任务)和长序列基准(15任务)。
实验流程:
1. 参数效率验证:对比DF-CL与LoRA类方法(如O-LoRA)的参数量,DF-CL仅需1–3%的可训练参数。
2. 性能测试:按不同任务顺序训练,评估平均准确率(ACC)和遗忘程度。
3. 消融实验:验证任务专属分支和权重合并策略的必要性。
创新方法:
- 频谱正交约束:通过傅里叶基的固有正交性,避免任务间干扰。
- 轻量级任务分支:每任务仅新增100–500个系数(k≪d),参数增量可忽略。
参数效率:
抗遗忘性能:
消融分析:
科学意义:
- 首次将稀疏傅里叶变换引入持续学习,证明了频谱域解耦知识的可行性。
- 提出正交任务分支与动态合并策略,为参数高效CL提供了新范式。
应用价值:
- 适用于边缘设备部署,如移动端LLMs的终身学习。
- 为多任务大模型的高效微调提供理论支持。
方法创新:
性能突破:
跨模型通用性:
在编码器-解码器(T5)和纯解码器(Llama2)架构上均验证有效。
(注:因文档为预印本,部分细节如实验超参数可参考附录B。)