分享自:

对比语言-图像预训练的可解释性研究

期刊:pattern recognition

类型a:学术研究报告

作者及研究机构
本研究的作者包括Yi Li(香港科技大学电子与计算机工程系)、Hualiang Wang(香港科技大学)、Yiqun Duan(悉尼科技大学计算机科学学院)、Jiheng Zhang(香港科技大学工业工程与决策分析系)以及Xiaomeng Li(通讯作者,香港科技大学)。该研究以预印本形式提交至《Pattern Recognition》,并于2024年9月17日发布在arXiv平台上(编号:2304.05653v2)。

学术背景与研究目标
对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)是一种强大的视觉-语言模型,广泛应用于图像分类、分割和生成等任务。然而,CLIP的可解释性(explainability)存在显著问题:其生成的类注意力图(Class Attention Map, CAM)倾向于关注背景区域而非前景目标,且激活信号(activations)在无关位置呈现噪声。这些问题降低了模型的可信度,并限制了其在开放词汇(open-vocabulary)任务中的应用。

本研究旨在解决CLIP的可解释性缺陷,提出一种无需微调(fine-tuning)的“CLIP手术”(CLIP Surgery)方法,通过改进模型架构和特征处理,生成更可靠的CAM。研究目标包括:(1)分析CLIP的架构与特征导致可解释性问题的原因;(2)设计手术式修改方案以提升CAM质量;(3)验证方法在多模态可视化和开放词汇任务中的扩展能力。

研究流程与方法
1. 问题分析
- 现象观察:通过可视化CLIP的原始相似性图(similarity map),发现其CAM存在“相反可视化”(opposite visualization,即背景得分高于前景)和“噪声激活”(noisy activations,即无关区域的高响应)。
- 原因探究
- 架构问题:CLIP的自注意力层(self-attention)因异质参数(heterologous parameters)建立了不一致的语义区域关联,导致注意力分散。
- 特征问题:CLIP学习多类别时,部分特征未被特定类别激活,成为冗余特征(redundant features),引发噪声。

  1. 方法设计:CLIP Surgery

    • 架构手术(Architecture Surgery)
      • 一致自注意力(Consistent Self-Attention):将原始自注意力矩阵中的查询(query)和键(key)参数替换为与值(value)参数同源的投影,确保语义一致性(公式3)。
      • 双路径结构(Dual Paths):仅聚合部分有益的自注意力模块,跳过有害的前馈网络(FFN),避免特征偏移(图5)。
    • 特征手术(Feature Surgery)
      • 冗余特征去除:通过计算跨类别的均值特征(公式10),识别并减去冗余特征,抑制噪声激活(图6)。
  2. 实验验证

    • 数据集:PASCAL VOC 2012、MS COCO 2017、PASCAL Context等,涵盖单标签、多标签及开放词汇任务。
    • 评估指标:平均交并比(mIoU)、平均得分对比(MSC,衡量前景与背景得分差异)和平均精度(mAP)。
    • 对比方法:包括原始CLIP、Grad-CAM、Bi-Modal等CAM方法,以及需额外对齐的ECLIP等。

主要结果
1. 可解释性提升
- CLIP Surgery在多个数据集上显著优于原始CLIP,mIoU平均提升22.11%-35.95%,MSC从负值(背景偏好)提升至47.72%以上(表1)。
- 可视化结果显示,方法有效消除了相反可视化和噪声激活(图8)。

  1. 开放词汇任务扩展

    • 语义分割:在PASCAL Context等数据集上,无需训练即超越部分需微调的方法(如MaskCLIP+),mIoU最高提升8.7%(表5)。
    • 多标签识别:通过特征手术调整跨图像得分,mAP提升11.61%(表6)。
    • 交互式分割:将CAM转化为点提示(point prompts)输入SAM模型,mIoU提升3倍(图10)。
  2. 多模态可视化

    • 通过图像-文本对的可视化,揭示CLIP训练过程中仅学习部分上下文,且文本令牌(如“[end]”)常被过度激活(图11)。

结论与价值
本研究首次系统分析了CLIP的可解释性问题,并提出无需微调的解决方案CLIP Surgery。其科学价值在于:
1. 理论贡献:揭示了CLIP的自注意力不一致性和特征冗余性对CAM的影响机制。
2. 应用价值:方法可直接应用于开放词汇分割、交互式分割等任务,提升模型透明度和下游性能。
3. 方法论创新:通过手术式修改原始模型,避免了传统CAM方法需额外对齐或训练的局限性。

研究亮点
1. 重要发现:CLIP的原始CAM存在系统性偏差,而冗余特征是噪声激活的主因。
2. 方法新颖性:首次将一致自注意力和特征手术结合,实现CAM的端到端优化。
3. 广泛适用性:方法支持多模态可视化,并为CLIP的改进提供了新思路(如训练中的冗余特征抑制)。

其他价值
研究开源了代码(GitHub链接),并提供了详细的消融实验(表3-4),验证了双路径结构和冗余特征去除的有效性。此外,多模态可视化结果对理解CLIP的训练机制具有潜在启示意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com