一种简单的零样本提示加权技术改进文本图像模型中的提示集成

分享自：
一种简单的零样本提示加权技术改进文本图像模型中的提示集成

期刊:Proceedings of the 40th International Conference on Machine Learning
这篇文档属于类型a，即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告：
一、作者及发表信息本研究由James Urquhart Allingham（剑桥大学）、Jie Ren（Google DeepMind）等共同完成，通讯作者为James Urquhart Allingham和Jie Ren。论文发表于Proceedings of the 40th International Conference on Machine Learning (ICML 2023)，会议地点为美国夏威夷檀香山，由PMLR（Proceedings of Machine Learning Research）出版。
二、学术背景研究领域：本研究属于多模态机器学习领域，聚焦于对比学习训练的文本-图像模型（如CLIP、ALIGN等）的零样本分类（zero-shot classification）任务。
研究动机：
 现有的零样本分类器依赖人工设计的提示词（prompt engineering）来提升性能，但手动设计提示词不仅耗时，且需针对不同下游任务调整，限制了模型的通用性。本研究旨在自动化提示词工程，通过提出一种零样本提示词加权集成技术（Zero-shot Prompt Ensembling, ZPE），无需标注验证数据即可优化提示词组合。
背景知识：
 - 对比学习模型（如CLIP）通过联合训练文本和图像编码器，将二者映射到同一嵌入空间，实现跨模态匹配。
 - 零样本分类指模型对未见过的类别进行分类，无需特定训练数据，但需通过提示词（如“a photo of a {}”）将类别名嵌入文本空间。
 - 提示词集成（prompt ensembling）通过平均多个提示词的文本嵌入提升分类效果，但传统方法依赖人工设计且需验证数据调优。
研究目标：
 1. 自动评估大规模提示词池中各提示词对特定下游任务的重要性；
 2. 提出偏差校正方法，解决预训练和测试数据中的频率偏差问题；
 3. 验证加权集成方法在多个基准数据集上的优越性。
三、研究流程与方法1. 问题定义与基线方法输入：图像嵌入（(z{\text{img}})）、类别嵌入（(z{\text{txt}})）、预训练图像集（LAION-400M的子集）。
 
基线方法（Max Logit Scoring）：计算每张图像与提示词的最大对数似然（max logit）作为提示词得分，但存在因高频词或虚假概念导致的过自信偏差。
 
2. 偏差校正与标准化频率偏差来源：
 预训练数据偏差：高频词（如“person”）的嵌入易被模型过度关注；
 
测试数据偏差：测试图像中的常见无关概念（如“人”出现在场景分类任务中）干扰评分。
 
校正方法：
 对每个提示词，计算其在预训练图像集（(D{\text{pretrain}})）和测试集（(D{\text{test}})）上的期望对数似然（(E{\text{pretrain}})和(E{\text{test}})）；
 
标准化得分：( \text{logits}{\text{normalized}} = \text{logits} - (E{\text{pretrain}} + E_{\text{test}})/2 )。
 
3. 长尾分布处理与Softmax加权问题：多数提示词得分低但数量多，集体影响仍显著。
 
解决方案：对提示词得分应用Softmax函数，抑制低质量提示词的权重。
 
4. 提示词选择将得分高于阈值（τ）的提示词视为“离群点”，采用中位数绝对偏差（Median Absolute Deviation, MAD）确定阈值，增强鲁棒性。
 
5. 实验设计数据集：ImageNet及其变体（-R、-A、-Sketch、-V2）和11个细粒度分类数据集（如Cars196、Food-101）。
 
模型：CLIP（ViT-B/16、ResNet-50等）和LiT（ViT-L/16）。
 
对比基线：手工设计提示词、等权重提示词集成、未校正的Max Logit Scoring。
 
四、主要结果性能提升：
在ImageNet上，ZPE加权集成比手工设计提示词高0.25%（68.56% vs. 68.31%），在LiT模型上优势更显著（78.90% vs. 78.55%）。
 
细粒度任务中，ZPE在6/11数据集上超越手工设计，平均准确率提升0.44%（CLIP）和1.20%（LiT）。
 
偏差校正有效性：
标准化后，预训练词频与得分的相关性从0.09（p=3.6e-11）降至-0.03（p=0.03），证明偏差被有效消除。
 
提示词选择分析：
ImageNet-R的高分提示词多含艺术相关词汇（如“drawing”“sketch”），与数据集特性（艺术化ImageNet）一致；
 
RESISC45（卫星图像分类）的高分提示词均含“satellite view”，显示自动适配领域的能力。
 
五、结论与价值科学价值：
 - 提出首个无需标注数据的提示词自动加权方法，解决了对比学习模型中提示词工程的通用性问题。
 - 通过偏差校正和长尾处理，为多模态模型的零样本学习提供了可解释的优化框架。
应用价值：
 - 降低部署成本：无需人工调优提示词，适用于缺乏标注数据的场景（如医疗影像）。
 - 模型兼容性：适用于CLIP、LiT等多种架构，提示词池可扩展。
六、研究亮点方法创新：
首次将似然比思想引入提示词评分，结合预训练和测试数据的双重偏差校正。
 
提出Softmax加权和MAD选择策略，解决长尾分布问题。
 
实验结果：
在16个数据集上全面超越手工设计提示词，证明自动化方案的优越性。
 
可扩展性：
提示词池可通过ChatGPT等工具扩展（实验中使用426个提示词），未来可探索更大规模池的优化。
 
七、其他有价值内容局限性：当前方法假设提示词独立，未考虑组合效应；未来可探索基于图的提示词关系建模。
 
代码开源：研究代码已集成至Uncertainty Baselines库，方便复现和扩展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问