作者及机构
本研究的通讯作者为Zhaoyi Liu(伊利诺伊大学厄巴纳-香槟分校,UIUC)和Huan Zhang(UIUC),研究成果以论文《Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models》的形式公开,目前为CVPR会议接受的开放访问版本,由计算机视觉基金会(Computer Vision Foundation)提供。
研究领域与动机
该研究属于人工智能安全领域,聚焦于自监督学习(Self-Supervised Learning, SSL)视觉编码器在大型视觉语言模型(Large Vision Language Models, LVLMs)中的后门攻击风险。当前,SSL视觉编码器因其能高效提取图像表征而被广泛用于构建LVLMs的视觉模块。然而,由于训练成本高昂,开发者常直接复用第三方发布的预训练编码器,这为恶意攻击者提供了植入后门的机会。
科学问题与目标
研究团队发现,仅需篡改视觉编码器,即可诱导下游LVLMs产生严重的视觉幻觉(如错误描述图像内容),且攻击具有隐蔽性和传播性。为此,作者提出首个针对SSL视觉编码器的后门攻击框架BadVision,旨在揭示这一新型威胁,并开发相应的触发优化与后门学习技术。
攻击目标:通过植入后门,使得任何携带触发器的输入图像在编码后与攻击者指定的目标图像特征相似,从而误导LVLMs生成攻击者预设的错误描述。
攻击假设:攻击者仅需访问目标编码器和影子数据集(shadow dataset),无需了解下游LVLMs的具体架构或任务。
BadVision分为两个核心阶段:
数据集与模型
- 目标编码器:CLIP ViT-L-336px(多模态对比学习)和EVA ViT-G/14(掩码自编码器)。
- 下游LVLMs:LLaVA-1.5和MiniGPT-4。
- 影子数据集:5,000张PASCAL VOC图像(远小于同类研究所需的规模)。
评估指标
- 攻击成功率(ASR):LVLMs对触发图像生成目标描述的比率。
- 特征相似度(Sim-T/Sim-B):触发/干净图像与目标图像的特征相似度。
- 隐蔽性检测:通过DeCREE方法计算反向触发器的L1范数比例(pl1-norm)。
攻击有效性
隐蔽性
下游任务影响
迁移性与计算成本
科学意义
- 首次揭示SSL视觉编码器后门对LVLMs的级联风险,提出“触发器聚焦”机制,为防御研究提供新方向。
- 证明对抗优化与特征控制可实现对生成模型的细粒度攻击,推动AI安全领域的对抗样本研究。
应用价值
- 警示开发者慎用第三方预训练编码器,呼吁社区加强模型供应链安全审核。
- 攻击框架可扩展至无目标攻击(附录9),导致LVLMs功能崩溃,对自动驾驶等关键场景构成威胁。
其他发现
- 对比实验显示,传统对抗攻击(如[59])在通用触发器设置下效果有限(ASR仅21%),而数据投毒攻击(如BadClip)因特征细节丢失无法精确控制生成内容(表2)。
- 附录中未目标攻击版本可导致98.7%的视觉理解错误,进一步证明威胁的广泛性。