分享自:

视觉语言模型在新领域的泛化:全面综述

期刊:journal of latex class files

这篇文档属于类型b(科学综述论文)。以下是针对该文档的学术报告:


作者与机构
本文由Xinyao Li(电子科技大学)、Jingjing Li(电子科技大学)、Fengling Li(悉尼科技大学)、Lei Zhu(同济大学)、Yang Yang(电子科技大学)和Heng Tao Shen(IEEE Fellow,电子科技大学)合作完成,发表于《journal of latex class files, vol. 13, no. 9, september 2014》。

主题与背景
论文题为《Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey》,聚焦视觉-语言模型(Vision-Language Models, VLMs)在跨领域泛化(domain generalization)中的研究进展。随着CLIP等模型通过大规模对比预训练展现出强大的零样本(zero-shot)能力,其在专业领域或分布外(out-of-distribution, OOD)数据上的性能下降问题日益凸显。本文系统梳理了VLMs泛化的方法、基准测试及与多模态大语言模型(Multimodal Large Language Models, MLLMs)的关系,填补了现有综述仅关注预训练而忽视迁移学习(transfer learning, TL)的空白。

主要观点与论据

  1. VLMs泛化的三大方法学框架

    • 基于提示的方法(Prompt-based Methods):通过调整文本、视觉或上下文提示(prompt)嵌入,以轻量级方式适配下游任务。例如,CoOp(Context Optimization)学习可训练的文本提示前缀和后缀(公式5),而VPT(Visual Prompt Tuning)则在视觉Transformer的输入层添加可学习补丁。支持实验显示,提示调优在16样本少样本学习(few-shot learning, FSL)中平均准确率提升至80.7%(表7),但需注意直接微调可能导致预训练知识遗忘。
    • 基于参数的方法(Parameter-based Methods):分为鲁棒微调(如Wise-FT通过权重集成平衡零样本与微调模型)和知识蒸馏(如VL2V-Adip对齐师生模型的模态表示)。在领域泛化(DG)任务PACS数据集上,此类方法最高达97.5%准确率(表6),显著优于单模态方法。
    • 基于特征的方法(Feature-based Methods):包括特征适配器(如CLIP-Adapter通过残差连接增强特征)和缓存模型(如Tip-Adapter利用训练样本特征构建键值对库)。缓存模型在测试时适应(test-time adaptation, TTA)中仅需特征相似度计算(公式10),无需反向传播,效率提升显著。
  2. 跨任务泛化场景与基准性能
    论文对比了VLMs在无监督域适应(Unsupervised Domain Adaptation, UDA)、领域泛化(DG)、少样本学习(FSL)等场景的表现。例如,在ImageNet衍生数据集(如包含艺术图像的ImageNet-R)上,基于提示的方法DePT在FSL中达到80.8%准确率(表7),而参数方法CAR-FT在分布偏移下仍保持67.1%的稳健性。作者强调,VLMs的零样本能力为传统迁移学习设定了新基线,但其多模态特性也带来了单模态方法未涉及的挑战,如跨模态对齐稳定性。

  3. VLMs与多模态大语言模型(MLLMs)的融合
    论文指出,如DeepSeek-VL等MLLMs通过连接视觉编码器与大语言模型(LLMs),进一步扩展了任务泛化范围(图3)。例如,LLaVA系列模型在视觉问答、图像描述等任务中展现出指令跟随能力。这种融合趋势体现了从专用VLMs向通用多模态智能体的演进,但需解决训练数据多样性、模态对齐粒度等问题。

  4. 未来挑战与方向
    作者提出三个关键挑战:

    • 分布偏移下的鲁棒性:当前方法在卫星图像(如EuroSAT)等极端OOD数据上性能仍不足(表7平均50.4%)。
    • 计算效率:蒸馏方法(如CustomKD)虽降低部署成本,但学生模型性能与教师差距显著(约10%)。
    • 任务扩展性:像素级任务(如语义分割)需突破CLIP图像级预训练的粒度限制,现有方法如ULDA通过文本对齐多级特征(像素/区域/场景)部分缓解此问题。

论文价值
本文首次系统构建了VLMs泛化的方法学图谱(图2),涵盖6大主流数据集(表5)和超过50种方法的性能对比(表6-7),为后续研究提供了清晰的基准框架。其创新性体现在:
1. 理论层面:重新诠释了迁移学习在VLMs时代的新内涵,如提示调优与特征缓存的等效性(公式10与12的对比)。
2. 实践层面:总结了MLLMs的开发范式(模型结构、训练数据、目标函数),助力通用多模态系统的快速迭代。


(注:全文共约1500字,严格遵循术语翻译规范,如“zero-shot”首次出现时标注为“零样本(zero-shot)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com