分享自:

一种简单的零样本提示加权技术改进文本图像模型中的提示集成

期刊:Proceedings of the 40th International Conference on Machine Learning

这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:


一、作者及发表信息

本研究由James Urquhart Allingham(剑桥大学)、Jie Ren(Google DeepMind)等共同完成,通讯作者为James Urquhart Allingham和Jie Ren。论文发表于Proceedings of the 40th International Conference on Machine Learning (ICML 2023),会议地点为美国夏威夷檀香山,由PMLR(Proceedings of Machine Learning Research)出版。


二、学术背景

研究领域:本研究属于多模态机器学习领域,聚焦于对比学习训练的文本-图像模型(如CLIP、ALIGN等)的零样本分类(zero-shot classification)任务。

研究动机
现有的零样本分类器依赖人工设计的提示词(prompt engineering)来提升性能,但手动设计提示词不仅耗时,且需针对不同下游任务调整,限制了模型的通用性。本研究旨在自动化提示词工程,通过提出一种零样本提示词加权集成技术(Zero-shot Prompt Ensembling, ZPE),无需标注验证数据即可优化提示词组合。

背景知识
- 对比学习模型(如CLIP)通过联合训练文本和图像编码器,将二者映射到同一嵌入空间,实现跨模态匹配。
- 零样本分类指模型对未见过的类别进行分类,无需特定训练数据,但需通过提示词(如“a photo of a {}”)将类别名嵌入文本空间。
- 提示词集成(prompt ensembling)通过平均多个提示词的文本嵌入提升分类效果,但传统方法依赖人工设计且需验证数据调优。

研究目标
1. 自动评估大规模提示词池中各提示词对特定下游任务的重要性;
2. 提出偏差校正方法,解决预训练和测试数据中的频率偏差问题;
3. 验证加权集成方法在多个基准数据集上的优越性。


三、研究流程与方法

1. 问题定义与基线方法

  • 输入:图像嵌入((z{\text{img}}))、类别嵌入((z{\text{txt}}))、预训练图像集(LAION-400M的子集)。
  • 基线方法(Max Logit Scoring):计算每张图像与提示词的最大对数似然(max logit)作为提示词得分,但存在因高频词或虚假概念导致的过自信偏差。

2. 偏差校正与标准化

  • 频率偏差来源
    • 预训练数据偏差:高频词(如“person”)的嵌入易被模型过度关注;
    • 测试数据偏差:测试图像中的常见无关概念(如“人”出现在场景分类任务中)干扰评分。
  • 校正方法
    • 对每个提示词,计算其在预训练图像集((D{\text{pretrain}}))和测试集((D{\text{test}}))上的期望对数似然((E{\text{pretrain}})和(E{\text{test}}));
    • 标准化得分:( \text{logits}{\text{normalized}} = \text{logits} - (E{\text{pretrain}} + E_{\text{test}})/2 )。

3. 长尾分布处理与Softmax加权

  • 问题:多数提示词得分低但数量多,集体影响仍显著。
  • 解决方案:对提示词得分应用Softmax函数,抑制低质量提示词的权重。

4. 提示词选择

  • 将得分高于阈值(τ)的提示词视为“离群点”,采用中位数绝对偏差(Median Absolute Deviation, MAD)确定阈值,增强鲁棒性。

5. 实验设计

  • 数据集:ImageNet及其变体(-R、-A、-Sketch、-V2)和11个细粒度分类数据集(如Cars196、Food-101)。
  • 模型:CLIP(ViT-B/16、ResNet-50等)和LiT(ViT-L/16)。
  • 对比基线:手工设计提示词、等权重提示词集成、未校正的Max Logit Scoring。

四、主要结果

  1. 性能提升

    • 在ImageNet上,ZPE加权集成比手工设计提示词高0.25%(68.56% vs. 68.31%),在LiT模型上优势更显著(78.90% vs. 78.55%)。
    • 细粒度任务中,ZPE在6/11数据集上超越手工设计,平均准确率提升0.44%(CLIP)和1.20%(LiT)。
  2. 偏差校正有效性

    • 标准化后,预训练词频与得分的相关性从0.09(p=3.6e-11)降至-0.03(p=0.03),证明偏差被有效消除。
  3. 提示词选择分析

    • ImageNet-R的高分提示词多含艺术相关词汇(如“drawing”“sketch”),与数据集特性(艺术化ImageNet)一致;
    • RESISC45(卫星图像分类)的高分提示词均含“satellite view”,显示自动适配领域的能力。

五、结论与价值

科学价值
- 提出首个无需标注数据的提示词自动加权方法,解决了对比学习模型中提示词工程的通用性问题。
- 通过偏差校正和长尾处理,为多模态模型的零样本学习提供了可解释的优化框架。

应用价值
- 降低部署成本:无需人工调优提示词,适用于缺乏标注数据的场景(如医疗影像)。
- 模型兼容性:适用于CLIP、LiT等多种架构,提示词池可扩展。


六、研究亮点

  1. 方法创新

    • 首次将似然比思想引入提示词评分,结合预训练和测试数据的双重偏差校正。
    • 提出Softmax加权和MAD选择策略,解决长尾分布问题。
  2. 实验结果

    • 在16个数据集上全面超越手工设计提示词,证明自动化方案的优越性。
  3. 可扩展性

    • 提示词池可通过ChatGPT等工具扩展(实验中使用426个提示词),未来可探索更大规模池的优化。

七、其他有价值内容

  • 局限性:当前方法假设提示词独立,未考虑组合效应;未来可探索基于图的提示词关系建模。
  • 代码开源:研究代码已集成至Uncertainty Baselines库,方便复现和扩展。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com