本文介绍了一项题为“Persistent Backdoor Attacks in Class-Incremental Learning via Structural Invariant Anchoring”的研究,作者为匿名作者,匿名机构。该研究是一项投稿至国际机器学习会议(International Conference on Machine Learning, ICML)2026年的审稿论文。
一、 研究背景
该研究的核心领域是机器学习安全,具体聚焦于持续学习(Continual Learning, CL)场景下的后门攻击(Backdoor Attack)威胁。持续学习旨在使模型能够顺序学习新任务而不遗忘旧任务的知识,这更符合现实世界应用场景,如面部识别系统需要持续加入新个体。在持续学习的多种设置中,类增量学习(Class-Incremental Learning, CIL)是最具挑战性的一种,模型使用统一的架构和分类器来应对不断出现的新类别,而任务身份(task identity)在推理时是不可知的。
与现实世界紧密相关的是,模型训练往往依赖外部数据,这使得模型面临后门攻击的威胁。攻击者通过向训练数据中注入少量带有特定触发器(trigger)的毒化样本(poisoned samples),并赋予其指定的目标标签,使模型在训练过程中习得一个隐藏的“触发器-目标类”关联。在推理阶段,带有该触发器的输入会被错误地分类到目标类,而干净的输入则不受影响。
然而,将传统后门攻击直接应用于CIL场景存在严重问题。由于CIL模型在学习新任务时会持续更新参数,这种动态特性会逐渐抹除之前建立的后门关联,导致后门攻击的持久性(persistence)成为关键挑战。现有的一些针对CL的后门攻击策略在CIL场景下均存在局限性:1) 需要在整个训练过程中持续注入毒化样本,这在现实的一次性投毒约束下难以实现;2) 依赖于任务特定的神经元(例如在任务增量学习TIL中),但CIL的共享特征空间会不断重新分配神经元用途,从而破坏这种关联;3) 现有CIL导向的攻击仅限于无目标攻击,因为目标类别是增量出现的,无法预先指定。因此,现有工作尚未能在一次性投毒的约束下,同时在CIL中实现既持久又有目标的后门攻击。这一安全缺口是该研究开展的根本动机。
研究团队首先分析了当前在TIL中最先进的后门攻击LTB,发现其持久性依赖于一个关键假设:对任务关键的神经元在后续学习过程中保持稳定。然而,作者通过实验论证,这一假设在CIL中并不成立。CIL模型虽然在神经元层面表现出剧烈的不稳定性,却依然能稳健地保持对旧任务的性能。这一矛盾现象启发研究者:任务知识并非存储在固定的单个神经元中,而是可能通过特征空间中的结构不变子空间得以保留。为了验证这一猜想,作者追踪了初始任务样本在主成分子空间上的表示,并利用CKA(Centered Kernel Alignment)相似性度量其在学习新任务后的保留程度。实验发现,浅层(如前两个残差块)保持了超过80%的子空间相似性,而深层(如最后一个残差块)则出现显著漂移。这一发现揭示了CIL中的一个关键特性,也为设计持久的后门攻击提供了核心洞见:将后门触发器锚定在浅层的、结构不变的特征子空间中。
二、 研究设计与详细流程
基于上述洞察,研究团队提出了PBTO(Persistent Backdoor Trigger Optimization),这是首个针对CIL设计的、持久且有目标的后门攻击框架。PBTO的核心思想是:通过模拟CIL的参数演化轨迹,并在此轨迹上优化一个能在所有模型状态下都有效、且其表示能被锚定在不变子空间中的通用触发器。具体工作流程分为两个主要阶段:
阶段一:轨迹建模
在“仅数据投毒”的攻击设定下,攻击者无法接触受害模型的后续任务数据。为了预测模型参数在CIL过程中如何演化,PBTO采用了一个代理模型来模拟这一过程。攻击者假设拥有一个从目标类条件分布中独立收集的公开代理数据集。为了模拟增量学习动态,攻击者将该代理数据集划分为M个互不相交的子集。然后,按顺序在这些子集上训练一个代理模型(例如ResNet-18),从而得到一系列模型状态,构成一个模拟的代理轨迹:ω = {θ̃1, θ̃2, …, θ̃M}。这个轨迹近似了受害模型在真实CIL过程中可能经历的特征空间变化模式。
阶段二:基于子空间锚定的触发器优化
在获得模拟轨迹ω后,PBTO设计了一个双目标优化策略来生成触发器δ。目标有两个:1) 轨迹不变性优化:确保触发器在轨迹上所有模型状态下都能有效地导致误分类;2) 浅层子空间锚定:将触发器的特征表示约束在稳定的浅层子空间内。
轨迹不变性优化 (L_t):通过最小化在轨迹ω上所有模型状态对触发器样本的平均交叉熵损失来实现。公式化表达为:L_t(δ) = 平均(对ω中所有模型,对毒化样本集中所有x,计算交叉熵损失 L_c( f̃_m(x⊕δ), y_t ) )。这迫使触发器寻找在CIL整个过程中都保持有效的特征路径。
浅层子空间锚定 (L_s):为确保触发器真正嵌入到不变的结构中,而不仅仅是针对模拟轨迹的伪影,作者引入了基于Gram矩阵的正则化项。Gram矩阵能捕捉特征通道间的相关性,对空间配置保持不变性,是描述特征统计特性的有效工具。具体做法是,对于每个代理模型和每个毒化样本,计算其在某个选定浅层ℓ(如倒数第二个残差块)的特征图的Gram矩阵。锚定损失定义为触发器样本与该层来自目标类y_t的参考样本r的Gram矩阵之间的Frobenius范数距离。公式化表达为:L_s(δ) = 平均(对ω中所有模型,对毒化样本集中所有x,计算 || g_ℓ(ϕ_ℓ(x⊕δ)) - g_ℓ(ϕ_ℓ®) ||²_F )。通过最小化这个损失,触发器被强制产生与真实目标类样本相似的浅层特征统计特性,从而将其表示锚定在稳定的结构子空间中。
最终的触发器优化目标为联合最小化 L_t + λ * L_s,其中λ是平衡两项的超参数。
最终,攻击者将优化好的触发器δ*注入到受害模型目标任务的少量训练样本中,从而完成攻击。
三、 主要实验结果与分析
研究团队在CIFAR-10、CIFAR-100和Tiny-ImageNet三个标准数据集上对PBTO进行了全面评估,采用了标准的CIL协议(如iCaRL方法,使用ResNet-18骨干网络,回放缓冲区大小为2000)。攻击仅在任务1注入,以测试其在后续最多任务序列中的持久性。
1. 持久性攻击效果对比: 实验结果表明,PBTO在持久性上显著超越了所有基线方法。如表1所示,在CIFAR-100上,PBTO在最终模型上的攻击成功率(ASR)高达86.5%,而现有最先进的LTB方法仅为4.7%,静态攻击如BadNets为4.5%,隐写攻击如Wanet为3.2%。在更复杂的Tiny-ImageNet上,PBTO仍能保持83.8%的ASR。这验证了PBTO通过锚定结构不变子空间,能够有效抵抗CIL中连续参数更新导致的特征重用,实现了真正的持久性。
2. 通用性与鲁棒性分析: * 跨架构可迁移性:在CIFAR-10上,将基于ResNet-18优化的PBTO触发器直接迁移到未见过的架构(VGG-16, DenseNet-121, MobileNetV2)上,攻击成功率仍能达到78%以上(见表2)。这表明PBTO捕获的是卷积神经网络中通用的、基础的特征模式,而非过拟合到特定模型参数。 * 跨CL算法的鲁棒性:PBTO在多种CIL策略下均表现出色(见表3)。在基于正则化的EWC和基于回放的iCaRL及更强的Der++算法下,PBTO的ASR均保持在85%以上。而LTB在这些场景下则崩溃(ASR降至10%以下)。这进一步证明PBTO利用的是模型为维持旧任务性能而必须保留的结构性特征,即使学习策略改变,这些特征仍受保护。
3. 对现有防御的抵抗能力: 研究团队测试了PBTO对抗多种先进后门防御的能力(见表4),包括模型级防御如Fine-Pruning(神经元剪枝)和NAD(基于蒸馏的净化),以及输入级防御如BTI-DBF(解耦式触发器反演)和Refine(基于重构的防御)。PBTO在所有防御下均保持了超过82%的高ASR。分析认为,这是因为PBTO的触发器“劫持”了对模型良性性能至关重要的结构性滤波器(如边缘检测器),剪除它们会损害模型精度;同时,其与目标类特征流形的深度纠缠使得解耦或重构防御面临两难选择:要么接受后门,要么破坏图像语义。
4. 消融研究与机制分析: * 组件重要性:表5展示了关键组件的作用。移除轨迹模拟或子空间锚定任一组件,ASR均大幅下降(分别从86.5%降至68.9%和62.1%)。两者结合才能达到最佳效果,证明了轨迹模拟预测参数漂变和子空间锚定确保结构稳定性的必要性。 * 数据效率与缓冲区敏感性:PBTO对数据规模要求不高,每个代理类仅需1000张图像即可达到76.8%的ASR。即使在回放缓冲区大小严重受限(M=500)的极端遗忘场景下,PBTO仍能保持10.4%的ASR,显著优于完全失效的基线方法(见表7)。 * 特征空间可视化:图4展示了学习完所有任务后,模型倒数第二层的特征t-SNE可视化结果。可以看到,由PBTO生成的毒化样本(红色点)的特征嵌入与良性目标类样本(蓝色点)的特征流形完美重叠。这直观地证实了PBTO实现了深度的语义纠缠,其触发器模仿了目标类别的高效用的结构不变量,因此CIL模型为保留旧任务知识而不得不连带保留该后门关联。
四、 研究结论与价值
本研究的主要结论是:揭示了在类增量学习中,任务知识是通过浅层网络中的结构不变子空间来保持的,而非依赖于稳定的单个神经元。基于这一发现,提出的PBTO攻击框架成功地利用了这种结构性不变性,首次在一次性投毒的约束下,为CIL系统实现了既持久又有目标的后门攻击。
本研究的科学价值在于: 1. 理论贡献:挑战了传统后门攻击(如LTB)在CIL场景中依赖“神经元局部稳定性”的假设,提出了“子空间结构不变性”这一新视角,深化了对CIL模型表示学习动态的理解。 2. 方法学创新:提出了一个新颖的攻击框架PBTO,它通过模拟参数轨迹和双目标优化,主动“工程化”出稳定的后门,而非被动地寻找现有冗余容量,这代表了后门攻击设计范式的转变。 3. 安全启示:研究结果表明,现有针对经典机器学习或任务增量学习设计的后门攻击和防御机制在更现实、更具挑战性的CIL场景下可能失效。这为CIL模型的安全性敲响了警钟,强调了在设计安全的持续学习系统时,必须考虑这种基于结构不变性的新型威胁。
五、 研究亮点