对比语言-图像预训练的可解释性研究

分享自：
对比语言-图像预训练的可解释性研究

期刊:pattern recognition
类型a：学术研究报告
作者及研究机构
 本研究的作者包括Yi Li（香港科技大学电子与计算机工程系）、Hualiang Wang（香港科技大学）、Yiqun Duan（悉尼科技大学计算机科学学院）、Jiheng Zhang（香港科技大学工业工程与决策分析系）以及Xiaomeng Li（通讯作者，香港科技大学）。该研究以预印本形式提交至《Pattern Recognition》，并于2024年9月17日发布在arXiv平台上（编号：2304.05653v2）。
学术背景与研究目标
 对比语言-图像预训练模型（Contrastive Language-Image Pre-training, CLIP）是一种强大的视觉-语言模型，广泛应用于图像分类、分割和生成等任务。然而，CLIP的可解释性（explainability）存在显著问题：其生成的类注意力图（Class Attention Map, CAM）倾向于关注背景区域而非前景目标，且激活信号（activations）在无关位置呈现噪声。这些问题降低了模型的可信度，并限制了其在开放词汇（open-vocabulary）任务中的应用。
本研究旨在解决CLIP的可解释性缺陷，提出一种无需微调（fine-tuning）的“CLIP手术”（CLIP Surgery）方法，通过改进模型架构和特征处理，生成更可靠的CAM。研究目标包括：（1）分析CLIP的架构与特征导致可解释性问题的原因；（2）设计手术式修改方案以提升CAM质量；（3）验证方法在多模态可视化和开放词汇任务中的扩展能力。
研究流程与方法
 1. 问题分析
 - 现象观察：通过可视化CLIP的原始相似性图（similarity map），发现其CAM存在“相反可视化”（opposite visualization，即背景得分高于前景）和“噪声激活”（noisy activations，即无关区域的高响应）。
 - 原因探究：
 - 架构问题：CLIP的自注意力层（self-attention）因异质参数（heterologous parameters）建立了不一致的语义区域关联，导致注意力分散。
 - 特征问题：CLIP学习多类别时，部分特征未被特定类别激活，成为冗余特征（redundant features），引发噪声。
方法设计：CLIP Surgery
架构手术（Architecture Surgery）：
 一致自注意力（Consistent Self-Attention）：将原始自注意力矩阵中的查询（query）和键（key）参数替换为与值（value）参数同源的投影，确保语义一致性（公式3）。
 
双路径结构（Dual Paths）：仅聚合部分有益的自注意力模块，跳过有害的前馈网络（FFN），避免特征偏移（图5）。
 
特征手术（Feature Surgery）：
 冗余特征去除：通过计算跨类别的均值特征（公式10），识别并减去冗余特征，抑制噪声激活（图6）。
 
实验验证
数据集：PASCAL VOC 2012、MS COCO 2017、PASCAL Context等，涵盖单标签、多标签及开放词汇任务。
 
评估指标：平均交并比（mIoU）、平均得分对比（MSC，衡量前景与背景得分差异）和平均精度（mAP）。
 
对比方法：包括原始CLIP、Grad-CAM、Bi-Modal等CAM方法，以及需额外对齐的ECLIP等。
 
主要结果
 1. 可解释性提升
 - CLIP Surgery在多个数据集上显著优于原始CLIP，mIoU平均提升22.11%-35.95%，MSC从负值（背景偏好）提升至47.72%以上（表1）。
 - 可视化结果显示，方法有效消除了相反可视化和噪声激活（图8）。
开放词汇任务扩展
语义分割：在PASCAL Context等数据集上，无需训练即超越部分需微调的方法（如MaskCLIP+），mIoU最高提升8.7%（表5）。
 
多标签识别：通过特征手术调整跨图像得分，mAP提升11.61%（表6）。
 
交互式分割：将CAM转化为点提示（point prompts）输入SAM模型，mIoU提升3倍（图10）。
 
多模态可视化
通过图像-文本对的可视化，揭示CLIP训练过程中仅学习部分上下文，且文本令牌（如“[end]”）常被过度激活（图11）。
 
结论与价值
 本研究首次系统分析了CLIP的可解释性问题，并提出无需微调的解决方案CLIP Surgery。其科学价值在于：
 1. 理论贡献：揭示了CLIP的自注意力不一致性和特征冗余性对CAM的影响机制。
 2. 应用价值：方法可直接应用于开放词汇分割、交互式分割等任务，提升模型透明度和下游性能。
 3. 方法论创新：通过手术式修改原始模型，避免了传统CAM方法需额外对齐或训练的局限性。
研究亮点
 1. 重要发现：CLIP的原始CAM存在系统性偏差，而冗余特征是噪声激活的主因。
 2. 方法新颖性：首次将一致自注意力和特征手术结合，实现CAM的端到端优化。
 3. 广泛适用性：方法支持多模态可视化，并为CLIP的改进提供了新思路（如训练中的冗余特征抑制）。
其他价值
 研究开源了代码（GitHub链接），并提供了详细的消融实验（表3-4），验证了双路径结构和冗余特征去除的有效性。此外，多模态可视化结果对理解CLIP的训练机制具有潜在启示意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问