持续学习性能与效率提升:基于辅助分类器的新方法
作者及机构
本研究的核心团队包括:Filip Szatkowski(华沙理工大学、IDEAS NCBR)、Yaoyue Zheng(西安交通大学人工智能与机器人研究所、巴塞罗那计算机视觉中心)、Fei Yang(南开大学计算机学院、深圳福田NKIARI)、Tomasz Trzciński(华沙理工大学、IDEAS研究所、Tooploox)、Bartłomiej Twardowski(巴塞罗那计算机视觉中心)、Joost van de Weijer(巴塞罗那自治大学)。该研究发表于《Proceedings of the 42nd International Conference on Machine Learning》(PMLR 267, 2025)。
学术背景
科学领域与问题
本研究属于机器学习中的持续学习(Continual Learning, CL)领域,核心挑战是“灾难性遗忘”(Catastrophic Forgetting)——模型在学习新任务时覆盖旧任务知识的现象。持续学习在动态、资源受限的环境中(如自动驾驶、医疗诊断)尤为重要,但现有方法在计算效率和性能平衡上存在局限。
研究动机
现有工作发现,神经网络中间层表征在持续学习中更稳定,但这一特性未被充分挖掘。同时,早期退出(Early Exit)技术虽能加速推理,但其在持续学习中的潜力尚未探索。本研究提出:辅助分类器(Auxiliary Classifiers, ACs)可同时提升模型性能与效率,通过利用中间层稳定性和动态推理机制。
研究流程与方法
1. 中间表征分析
- 对象:ResNet32在CIFAR100和ImageNet100上的10任务增量学习场景。
- 方法:
- 使用中心核对齐(Centered Kernel Alignment, CKA)量化各层表征相似性。
- 发现早期层表征在任务迭代中变化更小(图2),表明其抗遗忘性更强。
- 线性探测(Linear Probing)显示,中间层分类器在旧任务上性能优于最终分类器(图3),尤其在无样本回放方法(如LwF)中差异显著。
2. 过思考现象研究
- 定义:过思考(Overthinking)指样本被中间分类器正确分类却被最终分类器误判。
- 实验:
- 对比持续学习与联合训练(IID)模型的过思考程度,发现CL中过思考更显著(图4a)。
- 中间分类器能纠正最终分类器40%-60%的错误(图4b),且各分类器覆盖样本存在独特性(图4c)。
3. 辅助分类器设计与训练
- 架构:在ResNet/VGG/ViT的中间层插入轻量级ACs(含池化层+线性分类器)。
- 训练策略:
- 端到端联合训练,梯度截断避免干扰主干网络。
- 损失函数加权,早期ACs权重低于后期(如ResNet32中权重为[0.15, 0.3, …, 0.9])。
- 动态推理机制:若某AC置信度超过阈值λ,则提前退出;否则使用静态投票(图5)。
4. 实验验证
- 基准测试:CIFAR100/ImageNet100的5/10任务划分,对比FT、LwF、ER等10种CL方法。
- 结果:
- 性能提升:ACs平均带来10%相对准确率提升(表1),尤其在无样本回放方法(如EWC)中增益达11.73%。
- 效率优化:动态推理可节省10%-60%计算成本(图1),性能饱和点在80%-90%计算量时达到。
- 扩展性:在VGG19/ViT等深层网络中,ACs效益更显著(图7),如ViT仅需50%计算量即可匹配基线性能。
结果与逻辑链条
1. 稳定性分析:CKA证明早期层表征更稳定→支撑ACs抗遗忘设计的理论基础。
2. 过思考验证:CL中过思考更严重→ACs可通过纠正错误提升性能。
3. 端到端训练:ACs联合训练提升早期分类器性能(图4d)→动态推理效率与效果平衡的关键。
4. 基准实验:多方法、多架构一致改进→证明ACs的普适性。
结论与价值
科学价值
- 揭示了中间层表征在持续学习中的稳定性规律,为后续研究提供新视角。
- 提出动态推理框架,首次将计算效率与抗遗忘性能统一优化。
应用价值
- 适用于资源受限场景(如边缘设备),支持灵活的计算-精度权衡。
- 开源代码(GitHub)便于工业界复现与扩展。
亮点
1. 创新方法:首次系统性利用中间层稳定性设计ACs,突破单一分类器范式。
2. 高效动态推理:通过阈值λ实现无损加速(10%-60%成本节省)。
3. 跨架构普适性:在CNN(ResNet/VGG)与Transformer(ViT)中均有效。
其他价值
- 提出“过思考”作为持续学习的新评价指标,启发未来工作关注模型内部决策路径。
- 开源实现促进社区协作,代码库包含完整训练/推理流程及预训练模型。
注:专业术语如“持续学习”(Continual Learning)、“灾难性遗忘”(Catastrophic Forgetting)等首次出现时标注英文,后续使用中文。