分享自:

基于相对分布的知识蒸馏

期刊:expert systems with applicationsDOI:10.1016/j.eswa.2025.127736

学术研究报告:基于相对分布的知识蒸馏新方法RDKD

一、 研究团队与发表信息

本研究的主要作者为彭飞高(Pengfei Gao)、秦姣华(Jiaohua Qin)、向旭宇(Xuyu Xiang)和谭云(Yun Tan)。他们均来自中国湖南省长沙市的中南林业科技大学电子信息与物理学院。该项研究成果以《Knowledge Distillation from Relative Distribution》(基于相对分布的知识蒸馏)为题,发表于国际期刊《Expert Systems with Applications》第284卷(2025年)。该文已在2025年4月24日在线发表,并被分配了文章识别码127736。

二、 研究背景与目标

本研究属于人工智能与机器学习领域,具体聚焦于模型压缩技术中的知识蒸馏(Knowledge Distillation, KD)。随着深度学习模型,尤其是大规模模型(Large Models)在计算机视觉、自然语言处理及多模态任务中取得卓越性能,如何在计算和存储资源受限的实际场景(如移动设备、嵌入式系统)中部署这些高性能模型成为了一个关键挑战。知识蒸馏作为一种有效的模型压缩方法,旨在将一个庞大、高性能的“教师”(Teacher)模型中的知识迁移到一个轻量级的“学生”(Student)模型中。

传统的知识蒸馏方法主要分为两类:基于逻辑输出(logit-based)的方法和基于特征(feature-based)的方法。经典的基于逻辑输出的方法(如Hinton等人提出的KD)通过最小化教师模型与学生模型经过softmax函数和温度缩放后产生的概率分布之间的Kullback–Leibler(KL)散度来实现知识迁移。然而,这种方法存在一个核心问题:softmax函数对逻辑输出(logits)中的负值不敏感。在预训练良好的教师模型中,负值logits通常接近零,即使经过温度调整,它们在最终概率分布中所占的比重也微乎其微,导致这些负值所蕴含的“暗知识”(dark knowledge)在迁移过程中大量丢失。而基于特征的方法虽然能提取中间层更丰富的知识,但通常需要引入额外的辅助模块来处理不同网络架构间的特征维度对齐问题,增加了实现复杂度和计算开销,且在教师模型结构不可知(如商业保密)的场景下可能失效。

因此,本研究旨在解决基于逻辑输出的知识蒸馏中,因softmax函数特性导致的负值信息利用不足的问题。研究目标在于提出一种新颖的、无需额外复杂模块的蒸馏框架,能够高效地从教师模型的逻辑输出中提取更全面的知识,特别是从负值逻辑中挖掘信息,从而提升学生模型的性能、泛化能力和迁移学习效果。

三、 研究方法与流程

本研究提出了一种名为“相对分布知识蒸馏”(Relative Distribution Knowledge Distillation, RDKD)的新方法。其核心思想是利用逻辑值之间的相对关系,而非绝对概率分布,来构建更富含信息量的蒸馏监督信号。整个研究流程包含核心算法设计、全面的实验验证以及详尽的消融分析。

1. 核心算法设计流程 RDKD方法包含三个关键步骤,分别对应三种重新构建的逻辑表示:

  • 步骤A:构建负值反转逻辑(Negative Value Reversal Logit, NVRL) 为解决softmax对负值不敏感的问题,研究者首先对原始的教师和学生模型逻辑输出进行转换。具体操作是:对于一组逻辑值 (z1, z2, ..., zC),计算其最大值 max(z),然后用这个最大值减去每一个逻辑值 zi,得到 NVRLi = max(z) - zi。这一操作的几何意义是将所有逻辑值进行“反转”,使得原先的负值(相对于最大值)转变为正值。从数学上看,softmax(NVRL) 等价于 softmax(-z),即相当于对原始逻辑值取负后再进行softmax。这一变换打破了softmax的平移不变性,使得原先接近零的负值在概率分布中获得更显著的权重,从而让学生模型能够学习到教师模型负值逻辑中所包含的类间关系信息。图3和图4通过可视化对比展示了NVRL如何凸显了教师模型概率分布中的负值元素。

  • 步骤B:构建类间相对逻辑(Relative Logits) 仅使用NVRL虽然提升了负值信息的利用,但损失了原始逻辑值中正值部分的一些细节分布信息。为了弥补这一点,研究者进一步利用“相对分布”的思想。他们定义了任意两个类别 ij 之间的相对逻辑为 RL(i,j) = (zi, zj),即一个二维向量。在此基础上,研究者区分了两种特定的相对逻辑集合:

    • 目标相对逻辑(Target Relative Logit, TRL):目标类别 t 与所有非目标类别 j (j≠t) 构成的相对逻辑集合 (RL(t,1), ..., RL(t,C))
    • 非目标相对逻辑(Non-Target Relative Logit, NTRL):所有非目标类别之间两两构成的相对逻辑集合 (RL(i,1), ..., RL(C-1,C))。 通过计算这些相对逻辑经过softmax后的概率分布,可以捕获更加细粒度的、类别对之间的相对关系知识。
  • 步骤C:构建RDKD整体损失函数 通过消融实验(后文详述),研究者发现,同时使用NVRL和NTRL进行蒸馏能获得最佳效果,而TRL反而可能因为将问题退化为目标vs非目标的二分类任务,导致学生模型过拟合,从而阻碍知识迁移。因此,最终的RDKD框架(如图5所示)采用了结合了交叉熵损失(Cross-Entropy Loss)、NVRL对齐损失和NTRL对齐损失的复合损失函数: L_total = L_CE + α * L_NTRL + β * L_NVRL 其中,L_NTRLL_NVRL 分别是学生与教师模型的NTRL分布和NVRL分布之间的KL散度损失。αβ 是平衡超参数。该方法的训练流程简洁明了,如算法1(伪代码)所示:前向传播获得教师和学生模型的逻辑输出;分别计算其NVRL和NTRL表示;对这些表示应用softmax(可选用温度τ);计算上述三项损失;反向传播更新学生模型参数。整个过程仅需模型的最终输出,无需接触或对齐中间层特征。

2. 实验验证流程 为了全面评估RDKD的有效性、通用性和优越性,研究者在多个标准数据集和任务上设计了严谨的实验。

  • 实验设置

    • 数据集:使用CIFAR-100(图像分类)、ImageNet(大规模图像分类)、STL-10(评估特征迁移能力)、MS-COCO(目标检测)和Cityscapes(语义分割)。
    • 模型架构:涵盖了同构网络(如ResNet不同深度变体之间、VGG13→VGG8)和异构网络(如ResNet→ShuffleNet、ResNet→MobileNet)等多种教师-学生组合。
    • 对比方法:与经典知识蒸馏方法(KD)、前沿的基于逻辑输出的方法(如DKD、NormKD、LSKD、SKD)以及基于特征的方法(如FitNet、RKD、CRD、OFD、ReviewKD)进行对比。
    • 实现细节:遵循领域内通用的训练设置(如SGD优化器、学习率调度、数据增强策略),确保对比的公平性。所有RDKD结果均为三次独立实验的平均值。
  • 实验分析流程

    • 基准性能比较:在CIFAR-100和ImageNet上报告学生模型的Top-1/Top-5准确率;在MS-COCO上报告目标检测的平均精度(AP);在Cityscapes上报告语义分割的平均交并比(mIoU)。
    • 迁移性评估:在CIFAR-100上训练好的学生模型,将其作为特征提取器,在STL-10数据集上训练一个线性分类器,评估其表征的迁移学习能力。
    • 可视化分析:使用t-SNE对KD和RDKD训练出的学生模型的特征进行降维可视化,比较类别的可分性;绘制学生与教师模型逻辑输出相关矩阵的差异图,直观展示RDKD如何使学生预测与教师更对齐。
    • 训练成本分析:对比RDKD与其它方法在单批次训练时间和GPU内存占用上的开销。
    • 消融研究:这是本研究验证其设计决策的关键环节,系统地分析了各个组件的作用:
      1. NVRL单独效果:验证仅使用 L_NVRL 损失相较于传统KD的提升。
      2. TRL与NTRL效果:分别验证使用 L_TRLL_NTRL 的效果,发现TRL导致性能下降,而NTRL带来显著提升。
      3. 温度τ对NTRL的影响:探索不同蒸馏温度τ对NTRL蒸馏效果的影响,发现其性能相对稳定。
      4. 超参数α敏感性分析:测试不同α值对RDKD性能的影响,表明方法在一定范围内对α不敏感。

四、 主要研究结果

实验结果为RDKD方法的有效性和优越性提供了强有力的支持。

1. 基准性能结果: * 在CIFAR-100上:无论是同构还是异构网络蒸馏,RDKD consistently outperformed 传统KD方法,性能提升范围在0.98%到3.82%之间。例如,在ResNet32x4 → ResNet8x4同构蒸馏中,RDKD取得了76.56%的准确率,相比KD的73.33%提升了3.23%。更重要的是,RDKD的性能与精心设计的特征蒸馏方法(如CRD、OFD)相当,甚至在某些设置下超过了它们,而RDKD的实现复杂度远低于后者。与最新的基于逻辑输出的SOTA方法(如SKD、LSKD)相比,RDKD也展现出极具竞争力的性能,并在多个异构网络实验中取得了最佳结果(见表1和表2)。 * 在ImageNet上:在大规模数据集上,RDKD同样表现出色。在ResNet34→ResNet18和ResNet50→MobileNet-V1的蒸馏任务中,RDKD相比KD分别取得了+0.72%/+0.45%和+1.97%/+1.55%的Top-1/Top-5准确率提升(见表3和表4)。虽然其性能略低于某些需要复杂特征处理的特征蒸馏方法(如DiffKD),但考虑到RDKD的简洁性,这一结果充分证明了其高效性。 * 在下游任务上:在MS-COCO目标检测任务中,使用Faster R-CNN框架,RDKD相比KD在AP、AP50、AP75指标上分别提升了+1.37%、+2.22%和+1.75%(见表5)。在Cityscapes语义分割任务上,RDKD也相比基线学生模型有提升,表明其泛化能力。

2. 迁移性与可视化结果: * 表征迁移性:在从CIFAR-100到STL-10的迁移学习实验中,使用RDKD蒸馏出的学生模型作为特征提取器,在STL-10上取得了74.06%的Top-1准确率,显著高于KD(72.11%),甚至超过了某些特征蒸馏方法(如ReviewKD: 72.94%, DKD: 72.86%),这证明RDKD能帮助学生模型学习到更具可迁移性的表征(见表6)。 * 特征可视化:t-SNE图(图8)显示,RDKD训练的学生模型其特征在嵌入空间中呈现出更紧凑、类别分离更清晰的簇,表明其学习到了判别性更强的特征。相关矩阵差异图(图9)显示,RDKD使学生与教师模型的逻辑输出相关性差异更小,即预测模式更相似,直观证明了知识对齐的有效性。

3. 消融研究结果: * NVRL的作用:单独使用NVRL损失(L_CE + L_NVRL)即可在多个网络对上带来显著提升(平均约+1.7%),验证了挖掘负值信息的有效性(见表9)。 * TRL与NTRL的作用:实验证实了研究者的假设:使用TRL进行蒸馏会导致性能显著下降(最高下降6.21%),因为它提供了过于“尖锐”和简单的监督信号(见表10)。而使用NTRL则带来了稳定的性能增益(平均+2.05%),甚至优于使用全部相对逻辑(RL)的效果(见表11、12)。这明确了在相对分布中,非目标类别之间的关系(NTRL)是更丰富的知识来源。 * 参数影响:NTRL对蒸馏温度τ的变化相对不敏感,在τ=1到4之间性能稳定(图11)。超参数α在5到15的宽范围内都能取得良好效果,说明方法鲁棒性较强(图12)。

4. 训练成本:RDKD由于需要计算NTRL(涉及非目标类别的两两组合),相比KD、DKD等方法会引入额外的计算开销,单批次训练时间略有增加。但其内存占用与基础KD相近,且远低于引入自注意力等复杂模块的方法(如SKD)(见表8)。这是一个在性能提升与计算代价之间的合理权衡。

五、 研究结论与价值

本研究得出结论:所提出的基于相对分布的知识蒸馏方法(RDKD)是一种高效、简洁且强大的模型压缩技术。通过引入负值反转逻辑(NVRL)来充分利用教师模型逻辑输出中的负值信息,并结合非目标类别间相对逻辑(NTRL)来捕获细粒度的类间关系,RDKD成功地克服了传统基于逻辑输出的蒸馏方法中softmax函数带来的局限性。

该研究的科学价值在于: 1. 理论贡献:提出了“相对分布”这一新视角用于知识蒸馏,揭示了在逻辑输出空间中,除了全局概率分布外,类别对之间的相对关系(尤其是非目标类别之间)是更富含信息量的知识载体。 2. 方法创新:设计了NVRL和NTRL两种新颖的知识表示形式,以及融合二者的RDKD框架,为基于逻辑输出的知识蒸馏研究开辟了新的方向。 3. 实践价值:RDKD无需依赖教师模型的内部结构或引入额外的特征处理模块,实现简单,易于集成到各种现有网络架构和训练流程中。它在提升轻量化模型性能的同时,还增强了模型的表征迁移能力,对于在资源受限环境下部署高性能AI模型具有重要的应用价值。

六、 研究亮点

本研究的突出亮点包括: 1. 问题切入新颖:精准地识别并着手解决经典知识蒸馏中“softmax负值不敏感”这一根本性但常被忽视的问题。 2. 核心概念创新:提出了“负值反转逻辑(NVRL)”和“非目标相对逻辑(NTRL)”两个核心概念,构思巧妙,具有清晰的数学解释和直观的几何意义。 3. 实验全面严谨:不仅在标准图像分类数据集上进行了同构/异构网络的广泛测试,还延伸至目标检测、语义分割下游任务以及迁移学习场景,验证了方法的通用性和鲁棒性。详尽的消融实验为每个设计选择提供了坚实的经验证据,增强了研究的可信度。 4. 效果与简洁性的平衡:RDKD在取得与复杂特征蒸馏方法相媲美甚至更优性能的同时,保持了基于逻辑输出方法固有的简洁性和易用性优势,具有良好的实用前景。

七、 其他有价值的要点

作者在文中也指出了当前工作的局限性与未来方向:尽管RDKD在目标检测和语义分割任务上相比基线有提升,但提升幅度不如在分类任务上显著。未来的研究可以进一步优化RDKD算法,以更好地适应密集预测任务的特点,例如考虑如何将相对分布的思想与检测或分割任务中特定的输出结构(如边界框回归、像素级分类)相结合。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com