分享自:

动态适配器调谐用于长尾类增量学习

期刊:WACV

动态适配器调优在长尾类增量学习中的应用

第一作者是Yanan Gu,其工作单位分别为Norinco Group Testing and Research Institute(中国西安)和新加坡科技研究局资讯通信研究院。其余作者包括Muli Yang(新加坡科技研究局资讯通信研究院),Xu Yang(西安电子科技大学电子工程学院),Kun Wei(西安电子科技大学电子工程学院),Hongyuan Zhu(新加坡科技研究局资讯通信研究院,通讯作者),Gabriel James Goenawan(新加坡科技研究局资讯通信研究院)以及Cheng Deng(西安电子科技大学电子工程学院,通讯作者)。该研究作为会议论文被接受,是开放获取版本,除水印外与最终发表在IEEE Xplore上的会议论文集版本相同。

研究背景与目的 本研究属于计算机视觉与机器学习领域,具体聚焦于增量学习下的一个特定且具有挑战性的子问题:长尾类增量学习。传统的机器学习模型通常在静态、类别分布均匀的数据集上进行训练。然而,现实世界的数据流往往是连续不断且呈现出长尾分布的特点,即少数类别(头部类别)拥有大量样本,而大多数类别(尾部类别)只有极少样本。在这种场景下,模型需要在不遗忘旧知识的前提下,持续学习新的类别,同时还要克服数据分布不平衡带来的尾部类别识别困难。以往的方法大多采用两阶段策略:首先从头开始训练模型以获得特征表示,然后在第二阶段进行基于平衡知识驱动的校准。这种策略面临的核心挑战在于,从头开始的模型难以从长尾分布的数据中学习到鲁棒且具有判别力的特征,导致最终性能受限。

近年来,视觉基础模型因其强大的特征提取能力而备受关注。基于预训练模型的调参技术使得无需从头训练即可为下游任务提取有效特征。这启发了研究者思考:能否利用预训练模型的强大表征能力,为长尾类增量学习提供一个更优的一阶段解决方案?本研究的核心目标正是探索如何将预训练模型有效地应用于长尾类增量学习场景。研究者提出了一种名为动态适配器调优的新方法,旨在通过一个动态的适配器缓存机制,使预训练模型能够顺序地学习任务,从而显著提升长尾类增量学习的性能。该方法试图同时解决灾难性遗忘和类别不平衡学习这两个核心挑战。

详细方法与工作流程 本研究提出了一种完整的算法框架,名为动态适配器调优(Dynamic Adapter Tuning, DAT),其工作流程主要包含以下几个核心部分:

1. 基于适配器的预训练模型调优: 该方法以预训练的视觉Transformer模型(如ViT-B/16)作为固定的、强大的特征提取器。为了适应新任务同时保留预训练知识,研究者采用适配器调优技术。适配器是一种小型瓶颈层网络模块,被插入预训练模型的每一层Transformer块中。在训练过程中,只有这些适配器的参数是可学习的,而庞大的预训练模型参数被冻结。这确保了模型能够高效、轻量化地学习任务特定的知识,同时避免了对预训练表征的破坏,从根本上缓解了灾难性遗忘。为了进一步节省存储开销,研究者采用了“超适配器”机制,即用一个非常小的网络(超适配器)来根据层标识生成每一层适配器的参数,而非直接存储所有层的适配器参数。这比直接存储所有适配器参数减少了约91.6%的存储量。

2. 动态适配器缓存更新策略: 为了顺序处理多个任务,系统维护一个“适配器缓存”,用于存储学习过的任务的超适配器。当新任务到来时,系统需要决定是复用缓存中的某个超适配器来学习新任务,还是创建一个全新的超适配器。为此,研究者设计了一个基于任务相似性的动态更新策略。 具体流程如下:给定新任务t的数据D_t,系统会使用缓存中已有的每一个超适配器与预训练模型结合,分别提取D_t的特征。接着,对这些特征进行K-means聚类,聚类中心数设置为Dt中的类别总数。随后,计算聚类结果与真实标签的匹配度,得到每个超适配器在该新任务数据上的“聚类准确率”。这些准确率反映了已有任务与新任务之间的相似性。系统选取最高的聚类准确率max(Acc_i),并与一个预设的阈值τ进行比较。 如果max(Acc_i) > τ,则认为新任务与缓存中的某个任务高度相似。此时,选择具有最高准确率的超适配器H*来学习新任务(触发跨任务学习),而无需向缓存中添加新适配器。 如果max(Acc_i) ≤ τ,则认为新任务与已有任务差异较大。此时,系统会创建一个全新的超适配器H{n+1}来学习新任务,并将其添加到缓存中。 该策略的关键在于,阈值τ由用户根据对性能和存储成本的权衡来设定。高阈值会导致创建更多超适配器(更高性能,更大存储),低阈值则更多复用现有适配器(较低性能,更小存储),从而实现了性能与资源消耗的动态可调节。

3. 动态适配器紧凑化机制: 这是DAT方法的核心创新,旨在同时优化跨任务学习和跨类别学习,分别应对灾难性遗忘和类别不平衡问题。

跨类别学习(解决类别不平衡): 为了克服长尾分布导致模型偏向头部类别的问题,研究者设计了一个双路径学习架构。一条是“不平衡路径”,使用原始的长尾分布数据D_t,通过集成当前任务特定适配器的模型M_t_a来学习特征,并连接一个可训练的预测头p_t_imb。另一条是“平衡路径”,对D_t进行重采样,使得每个批次的各类别样本数均衡。平衡路径使用固定的预训练模型M0(不插入适配器)和一个单独的可训练预测头p_t_b进行学习。 在训练时,不平衡路径使用标准的交叉熵损失(L_imb),而平衡路径也使用交叉熵损失(L_b)。关键在于,研究者引入了一个“加权平衡蒸馏损失”(L_bd),将平衡路径学到的更公平的类间关系知识蒸馏到不平衡路径中。在蒸馏时,并非平等对待所有类别,而是为尾部类别分配更高的权重(权重w_i与类别的有效样本数成反比),从而使不平衡路径的预测头p_t_imb能够更多地学习尾部类别的判别知识。最终在测试阶段,使用经过平衡知识校准后的p_t_imb进行预测。

跨任务学习(缓解灾难性遗忘): 当新任务t与缓存中的旧任务高度相似(即max(Acc_i) > τ)时,系统选择超适配器H*来学习新任务。为了将旧任务的知识传递给新任务,研究者引入了任务蒸馏损失(L_td)。该损失计算使用H*的模型与使用新任务适配器H_t的模型,在相同新任务数据上的预测输出之间的均方误差。通过最小化这个损失,新任务的适配器在适应新数据的同时,也“记住”了与之相似的旧任务的特征模式。在学习完任务t后,H*将被H_t替换,使得缓存中的超适配器得到更新,融合了新旧任务的知识。

4. 总体优化目标: 方法的总体损失函数是上述多个损失的加权和。当未触发跨任务学习(即创建新适配器)时,总损失为:L = L_b + L_imb + L_bd + L_m。其中L_m是“关键特征匹配损失”,用于训练一个与每个任务适配器关联的可学习“键”,以便在测试阶段无需任务身份信息即可选择正确的适配器进行预测。当触发跨任务学习(即复用旧适配器)时,总损失额外加上任务蒸馏损失:L = L_b + L_imb + L_bd + L_m + L_td。

主要实验结果 研究者在三个常用的基准数据集上进行了广泛的实验验证:CIFAR-100、ImageNet-Subset和DomainNet,涵盖了5任务和10任务的增量学习设置,以及有序长尾和乱序长尾两种数据流分布。

1. 与现有方法的性能对比: 实验结果表明,DAT方法在几乎所有设置下都取得了最先进的性能。 * 在CIFAR-100数据集上,无论是5任务还是10任务,有序还是乱序分布,DAT的平均增量准确率均显著高于基线方法。例如,在10任务乱序长尾设置下,DAT的AIA达到82.77%,而其他基于预训练模型的先进方法如DualPrompt为70.39%,CODA-Prompt为67.61%,L2P为57.52%。与不使用预训练模型的传统两阶段方法(如PODNet+GVAlign)相比,优势更为明显。 * 在ImageNet-Subset和DomainNet数据集上,DAT同样展现出卓越的性能。特别是在DomainNet数据集上,其域与预训练数据(ImageNet-1K)不同,证明了DAT良好的泛化能力,并且其性能大幅超越了其他所有对比方法。

2. 对头部、中部、尾部类别性能的分析: 研究者专门评估了模型在第一阶段学习后,对头、中、尾三类样本的识别准确率。结果显示,DAT在中部和尾部类别上的表现均优于其他对比方法。例如,在尾部类别上,DAT(76.00%)优于CODA-Prompt(73.41%)、DualPrompt(61.71%)和L2P(46.70%)。这有力地证明了其跨类别学习机制(特别是加权平衡蒸馏)在缓解尾部类别识别困难方面的有效性。虽然DAT在头部类别上的性能略低于DualPrompt,但其在全体类别上的综合表现最优。

3. 消融实验与组件分析: * 平衡蒸馏损失的有效性:移除加权平衡蒸馏损失(w/o L_bd)后,整体性能从82.77%下降到76.38%。进一步地,若使用不加权的平衡蒸馏(即对所有类别平等蒸馏),性能为78.85%,仍低于使用加权蒸馏的82.77%。这表明加权蒸馏对于提升尾部类别学习至关重要。 * 任务蒸馏损失的有效性:移除任务蒸馏损失(w/o L_td)后,性能急剧下降至66.55%,这验证了跨任务学习对于缓解灾难性遗忘的重要性。 * 选择策略的有效性:将基于最高聚类准确率的选择策略替换为随机选择后,性能从82.77%下降到76.85%,证明了基于相似性的动态选择策略的有效性。 * 阈值τ的影响:实验表明,阈值τ是控制性能与存储开销的“旋钮”。当τ较低(如0)时,几乎不添加新适配器,性能一般(AIA 50.67%)。随着τ提高(如0.4,0.7),引入更多适配器,性能显著提升(71.52%, 82.77%)。当τ设为1.0(即每个任务都创建新适配器)时,虽然存储成本最大,但性能达到理论最高(90.91%)。这为用户在实际部署中根据资源约束进行配置提供了灵活性。

研究结论与意义 本研究的结论是,通过提出动态适配器调优方法,成功地将视觉基础模型的能力引入到长尾类增量学习领域。该方法通过一个动态的适配器缓存更新策略和一个紧凑化学习机制,有效地同时解决了灾难性遗忘和类别不平衡学习两大核心挑战,并在多个标准数据集上实现了显著的性能提升。

本研究的科学价值在于,它首次系统性地探索并证明了利用预训练模型进行单阶段长尾类增量学习的可行性和优越性,突破了传统两阶段方法的性能瓶颈。所提出的动态适配器缓存机制和紧凑化机制为后续研究提供了新的思路。在应用价值方面,该方法使得模型能够在真实世界持续到来的、分布不平衡的数据流中持续学习和进化,同时保持对新旧类别的高效、公平识别,在诸如自动驾驶、安防监控、机器人交互等需要持续适应新环境的智能系统中具有广泛的应用前景。

研究亮点与创新 1. 范式创新:首次提出并成功实践了利用预训练基础模型进行单阶段长尾类增量学习的范式,取代了以往效果受限的、需要从头训练的两阶段范式。 2. 动态适配器缓存机制:设计了基于任务相似性的动态适配器缓存更新策略,能够智能决定复用旧知识还是学习新知识,实现了性能与存储开销的灵活权衡。 3. 双路径紧凑化学习:创新性地提出跨类别学习和跨任务学习联合优化的动态适配器紧凑化机制。跨类别学习通过加权平衡蒸馏,有针对性地增强对尾部类别的学习;跨任务学习通过任务蒸馏,促进相似任务间的知识迁移,有效缓解遗忘。 4. 综合性能卓越:在三个挑战性数据集上的实验全面证明了方法的有效性,其性能显著超越现有所有方法,尤其在处理尾部类别和缓解灾难性遗忘方面表现出色。

其他有价值内容 论文还通过可视化分析(如t-SNE特征图)直观展示了跨任务学习的效果。在复用相似任务的超适配器进行学习后,旧任务的特征分布保持得更加清晰,这为方法缓解灾难性遗忘提供了直观证据。此外,研究明确指出了方法的可配置性(通过阈值τ),这增强了其实用性,允许用户根据具体硬件限制和应用需求进行定制。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com