分享自:

视觉语言模型的无遗忘学习

期刊:ICLR 2024

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于投影融合的视觉语言模型持续学习方法研究

作者与发表信息
本研究的作者署名为“anonymous authors”,目前处于ICLR 2024会议的双盲评审阶段。研究标题为《Learning without Forgetting for Vision-Language Models》,提出了一种名为“Projection Fusion (PROOF)”的新方法,旨在解决视觉语言模型(Vision-Language Models, VLM)在持续学习(Continual Learning)中的灾难性遗忘问题。

学术背景
研究领域为计算机视觉与自然语言处理的交叉领域,聚焦于类增量学习(Class-Incremental Learning, CIL)。传统CIL方法依赖视觉信息提取特征,但近年来,视觉语言模型(如CLIP)通过文本信息辅助学习通用表征的能力展现出巨大潜力。然而,VLM在持续学习新类别时,常因覆盖旧知识而导致性能下降。为此,研究提出两大挑战:
1. 如何避免遗忘:需在适应新任务时保留旧知识;
2. 如何充分利用多模态信息:需融合视觉与文本特征以提升语义理解。

研究目标是通过PROOF方法,使VLM具备持续学习能力,同时保持对旧任务的性能。

研究流程与方法
研究分为以下核心步骤:

  1. 任务特定投影学习

    • 对象与样本:使用9个基准数据集(如CIFAR100、CUB200),每个任务包含不重叠的类别,样本量从100到300类不等。
    • 方法:冻结预训练的视觉/文本编码器,在其上添加线性投影层(Projection Layer)。新任务到来时,扩展新投影层并固定旧投影层,避免旧知识被覆盖。投影层参数规模为d×d(d=512),远小于预训练模型参数量(约1.5亿)。
    • 创新点:提出可扩展投影(Expandable Projection),通过聚合不同任务的投影特征生成综合表征。例如,旧任务可能关注“鸟喙”特征,而新任务聚焦“猫胡须”,聚合后模型能同时识别两类特征。
  2. 跨模态融合模块

    • 输入:查询图像的视觉特征、文本分类器的文本特征、视觉原型(Visual Prototypes)及可学习的上下文提示(Context Prompts)。
    • 方法:通过自注意力机制(Self-Attention)调整特征。具体流程:
      • 计算视觉原型(类别的平均视觉特征)作为上下文;
      • 将视觉特征、文本特征、视觉原型和上下文提示拼接为集合,输入自注意力模块;
      • 输出适配后的特征,增强实例特异性。例如,对“熊猫”图像,模块会突出“黑眼圈”等判别性特征。
    • 损失函数:联合优化投影匹配(Projected Matching)、视觉匹配(Visual Matching)和文本匹配(Textual Matching)的交叉熵损失。
  3. 训练与推理

    • 训练:每个任务仅优化当前投影层和上下文提示,冻结旧参数。使用SGD优化器,学习率从0.001余弦衰减,批量大小为64。
    • 推理:合并三个匹配模块的logits,生成最终预测。投影层可通过线性合并(公式8)减少参数量,提升效率。

主要结果
1. 基准性能对比
- 在9个数据集上,PROOF的平均准确率(Ā)和最终准确率(Ab)均优于现有方法(如L2P、CoOp)。例如,在CIFAR100上,PROOF的Ā为85.34%,比第二名(SimpleCIL)高4.28%。
- 跨模态检索任务:在Flickr30k数据集上,PROOF的图像→文本检索R@1达85.68%,显著高于基线方法(如DER的78.37%)。

  1. 消融实验

    • 模块贡献:单独使用投影或融合模块分别提升性能,联合使用效果最佳。例如,在CIFAR100上,联合模块比单一模块准确率高6.2%。
    • 上下文提示长度:模型对提示长度(1-10)不敏感,默认设为3。
  2. 零样本性能

    • 提出变体PROOF†,通过残差投影保留预训练模型的零样本能力。在未见过类别上,PROOF†的准确率(Au)接近CLIP,而标准PROOF更擅长下游任务适应。

结论与价值
1. 科学价值
- 首次将可扩展投影与跨模态融合结合,解决了VLM持续学习的核心挑战;
- 通过自注意力实现多模态特征协同适配,为多模态学习提供新思路。

  1. 应用价值
    • 适用于动态开放环境(如在线内容分类、机器人交互),模型可持续学习新类别而不需重新训练;
    • 代码参数高效(仅增加0.1%参数量),适合资源受限场景。

研究亮点
1. 方法创新:可扩展投影和上下文感知融合模块;
2. 性能突破:在CIL和跨模态检索任务中均达到SOTA;
3. 通用性:适配多种VLM(如CLIP、BEiT-3)和任务类型。

其他发现
- 非重叠数据集验证:在自建TV100数据集(与CLIP预训练数据无重叠)上,PROOF仍保持优势,证明其泛化性;
- 计算效率:投影层合并技术可将推理参数量减少50%,且不损失性能。


以上内容完整涵盖了研究的背景、方法、结果与价值,符合学术报告的规范要求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com