离散傅里叶变换在大型语言模型中的快速和稳健持续学习

分享自：
离散傅里叶变换在大型语言模型中的快速和稳健持续学习

期刊:ICLR 2026
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
DF-CL：基于离散傅里叶变换的高效持续学习框架
作者与发表信息
 本研究由匿名作者团队完成，目前以会议论文形式提交至ICLR 2026，处于双盲评审阶段。论文标题为《Fourier Minds, Forget Less: Discrete Fourier Transform for Fast and Robust Continual Learning in LLMs》。
学术背景研究领域与动机
 该研究属于持续学习（Continual Learning, CL）与大语言模型（Large Language Models, LLMs）高效微调的交叉领域。持续学习的核心挑战是灾难性遗忘（catastrophic forgetting）——模型在学习新任务时遗忘旧任务知识。现有方法（如LoRA）通过低秩适配减少参数量，但任务数量增加时，累积参数仍会显著增长，难以适应资源受限场景。
科学问题
 如何在大语言模型中实现参数高效（parameter-efficient）且抗遗忘的持续学习？传统方法依赖任务专属参数模块（如适配器或提示词），导致内存开销随任务数量线性增长。
目标
 提出DF-CL（Discrete Fourier Continual Learning）框架，利用稀疏傅里叶变换（Sparse Fourier Transform, SFT）的频谱正交性，将共享知识与任务专属知识解耦，从而减少参数量的同时提升稳定性。
研究方法与流程1. 核心框架设计DF-CL基于离散傅里叶变换对模型权重更新进行频谱分解：
 - 全局共享参数：低频分量编码跨任务的通用知识。
 - 任务专属参数：高频分量捕获任务特异性特征，通过正交基索引冲突（coefficient index selection conflict）确保各任务参数空间独立。
关键步骤：
 1. 频谱矩阵构建：随机初始化共享频谱入口矩阵（spectral entry matrix）( M \in \mathbb{R}^{2 \times d} )，每个任务分配专属系数向量 ( x_t \in \mathbb{R}^k )。
 2. 逆傅里叶重构：通过逆变换（IDFT）将频谱矩阵转换为空间域权重更新 ( \Delta W )，叠加至预训练权重 ( W_0 )。
 3. 任务权重合并：采用最大幅值合并策略（max-magnitude merging），选择各参数位置上幅值最大的任务专属更新，保留重要知识。
2. 实验设计研究对象：
 - 模型：T5-large（24层）和Llama2-7B（32层），聚焦查询（query）与值（value）矩阵的适配。
 - 数据集：15个NLP任务，包括文本分类（如Amazon/Yelp评论）、自然语言推理（MNLI、CB）等，分为标准基准（4任务）和长序列基准（15任务）。
实验流程：
 1. 参数效率验证：对比DF-CL与LoRA类方法（如O-LoRA）的参数量，DF-CL仅需1–3%的可训练参数。
 2. 性能测试：按不同任务顺序训练，评估平均准确率（ACC）和遗忘程度。
 3. 消融实验：验证任务专属分支和权重合并策略的必要性。
创新方法：
 - 频谱正交约束：通过傅里叶基的固有正交性，避免任务间干扰。
 - 轻量级任务分支：每任务仅新增100–500个系数（k≪d），参数增量可忽略。
主要结果参数效率：
在T5-large上，DF-CL仅需120k参数（O-LoRA需11.8M），减少98.9%。
 
Llama2-7B上，DF-CL使用0.5M参数即达到与19.7M参数的MO-CL相当的性能（表3）。
 
抗遗忘性能：
在长序列任务中，DF-CL的初始任务准确率下降幅度显著低于O-LoRA（如MNLI任务从82.8%降至62.4%，而O-LoRA从84.9%骤降至37.5%）。
 
任务合并策略使性能波动标准差降低40%（图1c）。
 
消融分析：
移除任务专属分支导致准确率下降7.1%（表5）。
 
最大幅值合并优于均值合并，ACC提升1.9%（表6）。
 
结论与价值科学意义：
 - 首次将稀疏傅里叶变换引入持续学习，证明了频谱域解耦知识的可行性。
 - 提出正交任务分支与动态合并策略，为参数高效CL提供了新范式。
应用价值：
 - 适用于边缘设备部署，如移动端LLMs的终身学习。
 - 为多任务大模型的高效微调提供理论支持。
研究亮点方法创新：
频谱参数化：将权重更新建模为稀疏频谱系数，突破传统低秩适配的局限性。
 
合并策略：基于幅值的知识整合优于简单平均，保留高贡献参数。
 
性能突破：
在参数量减少两个数量级的同时，性能超越主流基线（如O-LoRA、MO-CL）。
 
首次实现15任务序列下的稳定学习（图4）。
 
跨模型通用性：
 在编码器-解码器（T5）和纯解码器（Llama2）架构上均验证有效。
其他价值开源计划：作者承诺公开代码与训练脚本，确保可复现性。
 
伦理合规：实验仅使用公开数据集，无隐私风险。
 
（注：因文档为预印本，部分细节如实验超参数可参考附录B。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问