分享自:

针对无参考图像质量评估模型的可扩展触发后门攻击

期刊:Association for the Advancement of Artificial Intelligence

这篇文档属于类型a(单一原创研究报告),以下是针对该研究的学术报告:


作者及机构信息
该研究由Yi Yu(南洋理工大学)、Song Xia(南洋理工大学)、Xun Lin(北京航空航天大学)、Wenhan Yang*(鹏城实验室)等合作完成,通讯作者为Wenhan Yang。研究团队来自新加坡南洋理工大学、中国北京航空航天大学及深圳鹏城实验室。论文发表于2025年AAAI Conference on Artificial Intelligence (AAAI-25)。


学术背景
研究领域为计算机视觉安全,聚焦于无参考图像质量评估模型(No-Reference Image Quality Assessment, NR-IQA)后门攻击(backdoor attack)。NR-IQA模型广泛应用于图像增强、视频压缩等场景,但其对对抗性攻击的脆弱性近年被揭示。现有攻击方法存在计算成本高、攻击目标单一、依赖白盒条件等问题。为此,本研究提出一种新型基于投毒的后门攻击方法(BAIQA),通过可缩放触发机制(scalable trigger)离散余弦变换(DCT)域触发注入,实现攻击效果的可控性与鲁棒性。


研究流程与方法

  1. 问题建模与攻击目标

    • 攻击者通过污染训练数据(投毒攻击)植入后门,使模型对含触发器的输入输出任意目标值,公式化为:
      $$f_\theta(t(x, \alpha \cdot t)) = y + \alpha \cdot \Delta y_t$$
      其中$\alpha$为缩放系数,$\Delta y_t$为目标偏差。
    • 攻击需满足:①对正常数据保持高精度;②触发器在数据增强(如裁剪)后仍有效。
  2. DCT域触发器设计

    • 动机:传统空间域触发器易因数据增强失效,DCT域具有块级局部不变性。

    • 方法

      • 将图像分块(16×16像素)并转换至DCT域,在中频段(64个频率分量)注入触发器。

      • 采用通用对抗扰动(UAP-DCT)作为触发器,通过算法1优化:
        ”`python

        算法1:UAP-DCT优化流程

        输入:训练子集D_s、代理模型f_θs、扰动边界ε
        输出:触发器t

      1. 训练代理模型f_θs
      2. 迭代优化t:最小化攻击损失(输出偏差)与视觉不可见性损失(MSE约束)
        ”`
    • 创新点:DCT域UAP触发器具有全局性,且对抗数据增强更鲁棒。

  3. 两种攻击场景实现

    • 毒标签攻击(P-BAIQA):直接修改训练数据标签为$y + \alpha \cdot \Delta y_t$,$\alpha$从预设分布采样(如{±1, ±0.75})。
    • 净标签攻击(C-BAIQA):保持标签不变,通过理论分析(假设1与定理1)设计:
      • α采样策略:$\alpha = (y - \mu_y)/\Delta y_t$,使触发器与标签分布匹配。
      • 数据修正:使用目标对抗样本(TAEs)调整输入$x$,确保后门与正常预测的一致性(算法2)。
  4. 实验验证

    • 数据集:LIVEc(1,162张图像)和KonIQ-10k(10,073张图像)。
    • 评估模型:HyperIQA、DBCNN(CNN架构)和TReS(Transformer架构)。
    • 基线对比:与Blended、WaNet等后门攻击方法比较,指标包括:
      • 攻击效果:平均绝对误差(MMAE)、平均放大比率(MMRA)。
      • 隐蔽性:峰值信噪比(PSNR1)。
    • 防御测试:针对微调(fine-tuning)和模型剪枝(pruning)的抵抗能力。

主要结果

  1. 攻击有效性

    • P-BAIQA在LIVEc上MMAE=8.72(∆y_t=40),显著优于基线(Blended:18.88);C-BAIQA虽略逊但仍保持可控偏差(MMRA=0.60)。
    • DCT域触发器PSNR1达30.06dB(LIVEc),视觉不可见性优于空间域方法(如WaNet:26.59dB)。
  2. 抗防御能力

    • 微调:剪枝40%参数后,P-BAIQA的MMAE仅上升2,模型正常性能(RMSE)下降更显著。
    • 理论验证:定理1表明,数据修正(TAEs)是净标签攻击成功的关键(表3中未修正时MMRA下降30%)。

结论与价值

  1. 科学意义

    • 首次提出针对NR-IQA的可缩放后门攻击框架,突破传统分类任务中离散输出的限制。
    • 揭示DCT域UAP触发器在连续输出空间中的泛化能力,为模型安全性分析提供新视角。
  2. 应用价值

    • 暴露NR-IQA模型在实际部署中的潜在风险(如恶意评分操纵)。
    • 提出的防御抵抗策略(如DCT域检测)可推动鲁棒IQA模型设计。

研究亮点
1. 方法创新:结合DCT域触发与可缩放机制,实现攻击目标动态可控。
2. 理论深度:通过概率模型(假设1)严格推导净标签攻击的数据修正条件。
3. 实验全面性:覆盖多数据集、多模型架构,并验证抗防御特性。


其他价值内容
- 开源代码与附录:https://github.com/yuyi-sd/BAIQA
- 对频域攻击的讨论为后续研究(如视频质量评估安全)提供参考。


(注:文中专业术语如“毒标签攻击(poison-label attack)”“净标签攻击(clean-label attack)”首次出现时标注英文,后续使用中文表述。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com