基于丰富归纳偏见的视觉语言模型学习

Learning with Enriched Inductive Biases for Vision-Language Models

研究背景与问题提出

近年来,视觉-语言模型(Vision-Language Models, VLMs)在计算机视觉和自然语言处理领域取得了显著进展。这些模型通过大规模图像-文本对进行预训练,能够构建统一的多模态表示空间,从而在多种下游任务中表现出色。然而,在少样本学习(few-shot learning)场景下,如何有效地调整这些模型以适应特定任务,同时保持良好的泛化能力,仍然是一个亟待解决的问题。

现有方法通常依赖于提示工程(prompt engineering)或参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)策略来优化预训练模型。然而,这些方法往往忽视了归纳偏置(inductive biases)的重要性,导致模型在复杂场景下的泛化能力受限。归纳偏置是指算法中内置的假设,用以引导模型学习特定的解决方案。例如,卷积神经网络(CNNs)中的权重共享和平移不变性就是典型的归纳偏置,它们帮助模型在小数据集上更高效地学习。

为了解决上述问题,本研究提出了一种新的框架——Learning with Enriched Inductive Biases (LWEIB),旨在通过在文本、模型和优化三个层面引入归纳偏置,提升VLMs在少样本任务中的表现。

论文来源与作者信息

这篇论文由Lingxiao YangRu-Yuan ZhangQi ChenXiaohua Xie共同撰写,作者分别来自中山大学系统科学与工程学院、上海交通大学脑健康研究院、中山大学计算机科学与工程学院等机构。论文发表于国际顶级期刊《International Journal of Computer Vision》(IJCV),并于2025年1月正式上线。


研究细节与流程

a) 研究流程与方法设计

本研究的核心是提出一种全新的框架——LWEIB,该框架通过在三个层面引入归纳偏置来优化VLMs的表现。以下是研究的具体流程:

1. 文本层面的归纳偏置

研究首先在文本层面引入了丰富的描述性信息。具体来说,作者使用大型语言模型(LLM)生成的定制化文本(customized texts)补充传统的手工提示(handcrafted prompts)。例如,对于“柴犬”这一类别,除了传统的提示“一张柴犬的照片”,还添加了诸如“小型”、“紧凑型”、“狐狸脸”等详细描述。这种方法旨在弥合语言与视觉模态之间的语义差距,从而提升模型的泛化能力。

2. 模型层面的归纳偏置

为了更好地捕捉语言和视觉中的结构信息,作者设计了两种新型适配器(adapters): - 短语适配器(Phrase Adapter, PA):用于文本编码器,通过一维深度卷积层(1D Depthwise Convolutional Layer)显式建模相邻词之间的关系。 - 空间适配器(Spatial Adapter, SA):用于图像编码器,通过二维深度卷积层(2D Depthwise Convolutional Layer)捕捉局部空间关系和细节。

这两种适配器被插入到Transformer块的不同位置,例如在多头自注意力层(MSA)之后和前馈网络(FFN)的第一全连接层之后。

3. 优化层面的归纳偏置

在优化过程中,作者提出了一种动态缩放因子α的方法,称为“慢-快优化法”(Slow-Fast Optimization Method)。这种方法通过随机调整α值,使模型能够在不同任务中灵活平衡欠拟合与过拟合。具体公式如下: $$ dy(\alpha) = \begin{cases} s \cdot \alpha, & \text{prob} > 0.5 \ \alpha, & \text{otherwise} \end{cases} $$ 其中,s是一个超参数,用于控制缩放程度。

实验设置

研究在三个广泛使用的基准数据集上进行了实验,包括ImageNet、Caltech101、CUB-200等。所有实验均采用16-shot设置,即每个类别仅使用16个训练样本。模型基于CLIP(Contrastive Language–Image Pre-training)架构,并在多个任务中评估其性能。


b) 主要结果与数据分析

1. 基础类与新类的泛化能力

实验结果表明,LWEIB在基础类(base classes)和新类(novel classes)上的表现均优于现有方法。例如,在ImageNet数据集上,LWEIB的新类准确率达到78.21%,比次优方法高出1.35%。此外,LWEIB在11个数据集上的平均调和平均值(Harmonic Mean, HM)达到81.21%,显著优于其他方法。

2. 跨数据集评估

在跨数据集评估中,LWEIB同样表现出色,平均准确率达到68.61%,比次优方法高出近2%。特别是在Eurosat、DTD和Aircraft等具有较大分布偏移的数据集上,LWEIB的优势尤为明显。

3. 领域泛化能力

在领域泛化任务中,LWEIB在3/4的未见领域数据集上表现最佳。这表明该框架具有较强的鲁棒性,能够有效应对显著的领域偏移。

结果分析

通过消融实验,作者进一步验证了各模块的有效性。例如,仅使用短语适配器或空间适配器时,模型性能不如完整框架;而动态缩放因子α的引入则显著提升了新类的泛化能力。这些结果表明,LWEIB通过多层次归纳偏置的协同作用,实现了更高效的模型调整。


c) 研究结论与价值

本研究的主要贡献在于提出了一种新颖的框架——LWEIB,该框架通过在文本、模型和优化三个层面引入归纳偏置,显著提升了VLMs在少样本任务中的表现。具体而言: - 科学价值:揭示了归纳偏置在少样本学习中的重要性,为未来研究提供了新的思路。 - 应用价值:LWEIB在多个实际任务中表现出色,可广泛应用于图像分类、目标检测等领域。


d) 研究亮点

  1. 多层次归纳偏置的设计:首次系统性地将归纳偏置引入文本、模型和优化三个层面。
  2. 创新的适配器设计:短语适配器和空间适配器分别针对语言和视觉模态,捕捉了丰富的结构信息。
  3. 动态优化策略:慢-快优化法通过随机调整缩放因子,有效平衡了欠拟合与过拟合。

总结与意义

本研究不仅提出了一个高效的少样本学习框架,还为视觉-语言模型的优化提供了新的视角。通过引入多层次归纳偏置,LWEIB在多个基准任务中取得了领先性能,展示了其在理论和实践中的重要价值。未来,研究团队计划进一步探索自适应优化策略,以减少随机性带来的影响,同时提高模型的稳定性与泛化能力。