分享自:

离散傅里叶变换在大型语言模型中的快速和稳健持续学习

期刊:ICLR 2026

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


DF-CL:基于离散傅里叶变换的高效持续学习框架

作者与发表信息
本研究由匿名作者团队完成,目前以会议论文形式提交至ICLR 2026,处于双盲评审阶段。论文标题为《Fourier Minds, Forget Less: Discrete Fourier Transform for Fast and Robust Continual Learning in LLMs》。


学术背景

研究领域与动机
该研究属于持续学习(Continual Learning, CL)大语言模型(Large Language Models, LLMs)高效微调的交叉领域。持续学习的核心挑战是灾难性遗忘(catastrophic forgetting)——模型在学习新任务时遗忘旧任务知识。现有方法(如LoRA)通过低秩适配减少参数量,但任务数量增加时,累积参数仍会显著增长,难以适应资源受限场景。

科学问题
如何在大语言模型中实现参数高效(parameter-efficient)抗遗忘的持续学习?传统方法依赖任务专属参数模块(如适配器或提示词),导致内存开销随任务数量线性增长。

目标
提出DF-CL(Discrete Fourier Continual Learning)框架,利用稀疏傅里叶变换(Sparse Fourier Transform, SFT)的频谱正交性,将共享知识与任务专属知识解耦,从而减少参数量的同时提升稳定性。


研究方法与流程

1. 核心框架设计

DF-CL基于离散傅里叶变换对模型权重更新进行频谱分解:
- 全局共享参数:低频分量编码跨任务的通用知识。
- 任务专属参数:高频分量捕获任务特异性特征,通过正交基索引冲突(coefficient index selection conflict)确保各任务参数空间独立。

关键步骤
1. 频谱矩阵构建:随机初始化共享频谱入口矩阵(spectral entry matrix)( M \in \mathbb{R}^{2 \times d} ),每个任务分配专属系数向量 ( x_t \in \mathbb{R}^k )。
2. 逆傅里叶重构:通过逆变换(IDFT)将频谱矩阵转换为空间域权重更新 ( \Delta W ),叠加至预训练权重 ( W_0 )。
3. 任务权重合并:采用最大幅值合并策略(max-magnitude merging),选择各参数位置上幅值最大的任务专属更新,保留重要知识。

2. 实验设计

研究对象
- 模型:T5-large(24层)和Llama2-7B(32层),聚焦查询(query)与值(value)矩阵的适配。
- 数据集:15个NLP任务,包括文本分类(如Amazon/Yelp评论)、自然语言推理(MNLI、CB)等,分为标准基准(4任务)和长序列基准(15任务)。

实验流程
1. 参数效率验证:对比DF-CL与LoRA类方法(如O-LoRA)的参数量,DF-CL仅需1–3%的可训练参数。
2. 性能测试:按不同任务顺序训练,评估平均准确率(ACC)和遗忘程度。
3. 消融实验:验证任务专属分支和权重合并策略的必要性。

创新方法
- 频谱正交约束:通过傅里叶基的固有正交性,避免任务间干扰。
- 轻量级任务分支:每任务仅新增100–500个系数(k≪d),参数增量可忽略。


主要结果

  1. 参数效率

    • 在T5-large上,DF-CL仅需120k参数(O-LoRA需11.8M),减少98.9%。
    • Llama2-7B上,DF-CL使用0.5M参数即达到与19.7M参数的MO-CL相当的性能(表3)。
  2. 抗遗忘性能

    • 在长序列任务中,DF-CL的初始任务准确率下降幅度显著低于O-LoRA(如MNLI任务从82.8%降至62.4%,而O-LoRA从84.9%骤降至37.5%)。
    • 任务合并策略使性能波动标准差降低40%(图1c)。
  3. 消融分析

    • 移除任务专属分支导致准确率下降7.1%(表5)。
    • 最大幅值合并优于均值合并,ACC提升1.9%(表6)。

结论与价值

科学意义
- 首次将稀疏傅里叶变换引入持续学习,证明了频谱域解耦知识的可行性。
- 提出正交任务分支动态合并策略,为参数高效CL提供了新范式。

应用价值
- 适用于边缘设备部署,如移动端LLMs的终身学习。
- 为多任务大模型的高效微调提供理论支持。


研究亮点

  1. 方法创新

    • 频谱参数化:将权重更新建模为稀疏频谱系数,突破传统低秩适配的局限性。
    • 合并策略:基于幅值的知识整合优于简单平均,保留高贡献参数。
  2. 性能突破

    • 在参数量减少两个数量级的同时,性能超越主流基线(如O-LoRA、MO-CL)。
    • 首次实现15任务序列下的稳定学习(图4)。
  3. 跨模型通用性
    在编码器-解码器(T5)和纯解码器(Llama2)架构上均验证有效。


其他价值

  • 开源计划:作者承诺公开代码与训练脚本,确保可复现性。
  • 伦理合规:实验仅使用公开数据集,无隐私风险。

(注:因文档为预印本,部分细节如实验超参数可参考附录B。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com