本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
梯度分解与对齐的增量目标检测方法研究
作者及机构:
Wenlong Luo(西北工业大学)、Shizhou Zhang*(西北工业大学)、De Cheng*(西安电子科技大学)、Yinghui Xing(西北工业大学)、Guoqiang Liang(西北工业大学)、Peng Wang(西北工业大学)、Yanning Zhang(西北工业大学)。论文发表于ICCV(国际计算机视觉大会),为开放获取版本,最终出版版本可通过IEEE Xplore获取。
研究领域:计算机视觉中的增量目标检测(Incremental Object Detection, IOD)。
研究动机:传统目标检测模型(如Faster R-CNN)假设所有类别数据在训练初期即可获得,但现实场景中常需动态学习新类别而避免遗忘旧类别知识。现有IOD方法多依赖知识蒸馏(Knowledge Distillation),但忽视了类别重叠问题,导致旧类别目标被错误分类为背景,性能受限。
研究目标:提出一种结合伪标签估计与梯度对齐的新框架(GDA-IOD),解决灾难性遗忘(Catastrophic Forgetting)和类别重叠问题,提升模型在动态环境中的适应能力。
输入数据:当前训练图像集 ( Dt ),旧模型 ( M{t-1} ) 的推理结果(置信度分数 ( s_i ))。
核心方法:
- 双峰分布建模:旧模型推理结果的置信度呈现双峰分布(低/中/高置信度区域)。中置信度区域多为正确检测但误分类的前景目标(False Positive)。
- 高斯混合模型(GMM):采用两成分GMM(共享协方差)对置信度分群,通过EM算法估计参数(均值 ( \mu_l, \mu_h )、方差 ( \sigma^2 ))。
- 动态阈值划分:
- 高置信度区域(( s_i > \muh - \alpha \cdot \sigma )):作为伪标签 ( y{\text{pseudo}} ) 监督训练。
- 中置信度区域(( \frac{\mu_l + \mu_h}{2} < s_i \leq \mu_h - \alpha \cdot \sigma )):排除为负样本,防止区域提议网络(RPN)将其误判为背景。
创新点:首次利用GMM自适应划分伪标签,避免固定阈值导致的噪声问题。
输入数据:伪标签 ( y_{\text{pseudo}} ) 与新类别标注 ( yt )。
核心方法:
- 梯度分解:将ROI头损失 ( L{\text{roi}} ) 分解为旧类别相关损失 ( L{\text{pseudo}}^{\text{roi}} ) 和新类别损失。
- 正交投影对齐:
- 若总体梯度 ( g ) 与旧类别梯度 ( g{\text{pseudo}} ) 夹角超过90度(即 ( \langle g{\text{pseudo}}, g \rangle < 0 )),将 ( g ) 投影至 ( g{\text{pseudo}} ) 的正交方向,避免参数更新破坏旧知识。
- 公式:( g{\text{proj}} = g - \lambda \cdot \frac{g{\text{pseudo}}^\top g}{|g{\text{pseudo}}|^2} g{\text{pseudo}} ),其中 ( \lambda = 0.6 ) 为超参数。
理论贡献:数学证明该投影策略(( \lambda \in [0,1] ))可保证 ( \langle g_{\text{proj}}, g \rangle \geq 0 ),平衡模型稳定性与可塑性。
数据集:PASCAL VOC2007(20类)和MS COCO2017(80类),按“A-B”划分增量任务(如10+10表示初始10类,增量10类)。
基准对比:
- 对比方法:包括联合训练(Joint Training)、微调(Fine-tuning)、ORE、ILOD-Meta等。
- 评估指标:mAP(平均精度)、AP50、AP75。
实验结果:
- 单步增量:在VOC 10-10任务中,GDA-IOD旧类别mAP达75.1%,超越最优对比方法BPF(71.7%)。
- 多步增量:VOC 5-5-5-5四任务设置下,最终mAP为63.5%,较基线(58.5%)提升显著。
- 消融实验:GM-Pseudo单独使用可提升旧类别mAP 3.2%,GDA进一步优化新旧类别平衡。
(报告总字数:约1500字)