这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:
一、作者及发表信息
本研究由James Urquhart Allingham(剑桥大学)、Jie Ren(Google DeepMind)等共同完成,通讯作者为James Urquhart Allingham和Jie Ren。论文发表于Proceedings of the 40th International Conference on Machine Learning (ICML 2023),会议地点为美国夏威夷檀香山,由PMLR(Proceedings of Machine Learning Research)出版。
二、学术背景
研究领域:本研究属于多模态机器学习领域,聚焦于对比学习训练的文本-图像模型(如CLIP、ALIGN等)的零样本分类(zero-shot classification)任务。
研究动机:
现有的零样本分类器依赖人工设计的提示词(prompt engineering)来提升性能,但手动设计提示词不仅耗时,且需针对不同下游任务调整,限制了模型的通用性。本研究旨在自动化提示词工程,通过提出一种零样本提示词加权集成技术(Zero-shot Prompt Ensembling, ZPE),无需标注验证数据即可优化提示词组合。
背景知识:
- 对比学习模型(如CLIP)通过联合训练文本和图像编码器,将二者映射到同一嵌入空间,实现跨模态匹配。
- 零样本分类指模型对未见过的类别进行分类,无需特定训练数据,但需通过提示词(如“a photo of a {}”)将类别名嵌入文本空间。
- 提示词集成(prompt ensembling)通过平均多个提示词的文本嵌入提升分类效果,但传统方法依赖人工设计且需验证数据调优。
研究目标:
1. 自动评估大规模提示词池中各提示词对特定下游任务的重要性;
2. 提出偏差校正方法,解决预训练和测试数据中的频率偏差问题;
3. 验证加权集成方法在多个基准数据集上的优越性。
三、研究流程与方法
1. 问题定义与基线方法
- 输入:图像嵌入((z{\text{img}}))、类别嵌入((z{\text{txt}}))、预训练图像集(LAION-400M的子集)。
- 基线方法(Max Logit Scoring):计算每张图像与提示词的最大对数似然(max logit)作为提示词得分,但存在因高频词或虚假概念导致的过自信偏差。
2. 偏差校正与标准化
- 频率偏差来源:
- 预训练数据偏差:高频词(如“person”)的嵌入易被模型过度关注;
- 测试数据偏差:测试图像中的常见无关概念(如“人”出现在场景分类任务中)干扰评分。
- 校正方法:
- 对每个提示词,计算其在预训练图像集((D{\text{pretrain}}))和测试集((D{\text{test}}))上的期望对数似然((E{\text{pretrain}})和(E{\text{test}}));
- 标准化得分:( \text{logits}{\text{normalized}} = \text{logits} - (E{\text{pretrain}} + E_{\text{test}})/2 )。
3. 长尾分布处理与Softmax加权
- 问题:多数提示词得分低但数量多,集体影响仍显著。
- 解决方案:对提示词得分应用Softmax函数,抑制低质量提示词的权重。
4. 提示词选择
- 将得分高于阈值(τ)的提示词视为“离群点”,采用中位数绝对偏差(Median Absolute Deviation, MAD)确定阈值,增强鲁棒性。
5. 实验设计
- 数据集:ImageNet及其变体(-R、-A、-Sketch、-V2)和11个细粒度分类数据集(如Cars196、Food-101)。
- 模型:CLIP(ViT-B/16、ResNet-50等)和LiT(ViT-L/16)。
- 对比基线:手工设计提示词、等权重提示词集成、未校正的Max Logit Scoring。
四、主要结果
性能提升:
- 在ImageNet上,ZPE加权集成比手工设计提示词高0.25%(68.56% vs. 68.31%),在LiT模型上优势更显著(78.90% vs. 78.55%)。
- 细粒度任务中,ZPE在6/11数据集上超越手工设计,平均准确率提升0.44%(CLIP)和1.20%(LiT)。
偏差校正有效性:
- 标准化后,预训练词频与得分的相关性从0.09(p=3.6e-11)降至-0.03(p=0.03),证明偏差被有效消除。
提示词选择分析:
- ImageNet-R的高分提示词多含艺术相关词汇(如“drawing”“sketch”),与数据集特性(艺术化ImageNet)一致;
- RESISC45(卫星图像分类)的高分提示词均含“satellite view”,显示自动适配领域的能力。
五、结论与价值
科学价值:
- 提出首个无需标注数据的提示词自动加权方法,解决了对比学习模型中提示词工程的通用性问题。
- 通过偏差校正和长尾处理,为多模态模型的零样本学习提供了可解释的优化框架。
应用价值:
- 降低部署成本:无需人工调优提示词,适用于缺乏标注数据的场景(如医疗影像)。
- 模型兼容性:适用于CLIP、LiT等多种架构,提示词池可扩展。
六、研究亮点
方法创新:
- 首次将似然比思想引入提示词评分,结合预训练和测试数据的双重偏差校正。
- 提出Softmax加权和MAD选择策略,解决长尾分布问题。
实验结果:
- 在16个数据集上全面超越手工设计提示词,证明自动化方案的优越性。
可扩展性:
- 提示词池可通过ChatGPT等工具扩展(实验中使用426个提示词),未来可探索更大规模池的优化。
七、其他有价值内容
- 局限性:当前方法假设提示词独立,未考虑组合效应;未来可探索基于图的提示词关系建模。
- 代码开源:研究代码已集成至Uncertainty Baselines库,方便复现和扩展。