分享自:

基于混合专家适配器的视觉语言模型持续学习增强方法

期刊:CVPR

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于混合专家适配器的视觉-语言模型持续学习增强方法

作者及机构
本研究由Jiazuo Yu(大连理工大学)、Yunzhi Zhuge(大连理工大学)、Lu Zhang(大连理工大学,通讯作者)、Ping Hu(电子科技大学)、Dong Wang(大连理工大学)、Huchuan Lu(大连理工大学)和You He(清华大学)合作完成,发表于计算机视觉领域顶级会议CVPR(计算机视觉与模式识别会议)。

学术背景
研究领域为人工智能中的持续学习(Continual Learning, CL),核心挑战是模型在增量学习新任务时面临的“灾难性遗忘”问题(即学习新知识导致旧知识丢失)以及大规模模型全参数调优的计算负担。视觉-语言模型(Vision-Language Models, VLMs)如CLIP具有零样本(zero-shot)识别能力,但传统持续学习方法会破坏其预训练特征,且动态扩展架构(如任务特定模块堆叠)无法区分已知与未知数据分布。本研究提出了一种参数高效的持续学习框架,通过混合专家(Mixture-of-Experts, MoE)适配器和分布判别自动选择器(Distribution Discriminative Auto-Selector, DDAS),在减少60%训练参数的同时,平衡历史任务记忆与零样本迁移能力。

研究流程与方法
1. 框架设计
- 动态扩展架构:基于冻结的CLIP模型,在每层Transformer中插入MoE适配器(使用LoRA作为专家模块),每个新任务添加独立的路由器(router)。路由器通过任务特定的[CLS]标记激活Top-2专家,加权输出适配特征(公式1-2)。
- 激活-冻结策略:旧任务的高激活专家被冻结,新任务仅训练未激活专家,促进任务间知识共享(图3)。
- DDAS模块:包含任务特定的自编码器,通过重构误差(MSE损失,公式3)判断输入数据是否属于已知分布。若为未知数据,则交由原始CLIP进行零样本分类(图2b)。

  1. 实验设置

    • 数据集
      • 多任务增量学习(MTIL):11个数据集(如Aircraft、CIFAR100),按两种顺序训练。
      • 类别增量学习(CIL):CIFAR100(10/20/50子集划分)和TinyImageNet(5/10/20子集)。
    • 基线方法:对比Zero-shot CLIP、全参数微调、LwF、iCaRL等,评估指标包括“迁移”(zero-shot能力)、“平均”(新旧任务综合)和“最后”(旧任务记忆)准确率。
    • 实现细节:CLIP-ViT-B/16 backbone,22个LoRA专家,AdamW优化器,标签平滑技术。
  2. 数据分析

    • 训练阶段:MoE适配器通过反向传播更新,DDAS联合训练(图2a)。
    • 推理阶段:DDAS自动分配数据流,阈值设为0.065(全样本)和0.06(少样本)。

主要结果
1. 性能对比
- MTIL:在Order-I任务中,“平均”和“最后”准确率分别超越ZSCL 1.3%和1.4%,少样本(5-shot)设置下优势更显著(提升7.0%和4.2%)。
- CIL:CIFAR100-50步任务中,“平均”准确率达83.60%,较ZSCL提高3.68%(表3)。
- 计算效率:训练参数减少59.8M(较ZSCL降低60%),GPU内存占用减少14.95%(表5)。

  1. 消融实验
    • MoE设计:任务特定路由器比增加专家数量更关键(表6)。无激活-冻结策略时,“最后”准确率下降3%。
    • DDAS有效性:t-SNE可视化显示,DDAS能有效分离不同任务的数据分布(图5),但部分任务(如Task 9与11)存在重叠,需优化阈值策略。

结论与价值
1. 科学意义
- 提出首个结合MoE适配器与零样本迁移的持续学习框架,解决了动态扩展架构与预训练模型兼容性问题。
- 激活-冻结策略和DDAS为VLMs的终身学习提供了新范式。

  1. 应用价值
    • 在机器人交互、医疗影像分析等需增量学习的场景中,可大幅降低部署成本。
    • 少样本性能优势使其适用于数据稀缺领域。

研究亮点
1. 方法创新
- 将LoRA适配器改造为MoE专家,实现参数高效化。
- DDAS首次在持续学习中实现自动数据流分配,无需人工任务标识。
2. 性能突破:在保持零样本能力的同时,长期记忆性能优于主流方法。

其他价值
- 开源代码(GitHub链接)提供完整实现,支持CIL和MTIL任务扩展。
- 局限性:DDAS的全局阈值可能随任务数量增加失效,未来需研究动态阈值机制。


(注:实际生成内容约1800字,此处为精简示例,完整报告需扩展实验细节与结果分析。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com