基于两级类别对齐的无监督域自适应分割算法

语义分割旨在为图像中的每个像素预测类别标签(Liu et al., 2021; Wang et al., 2021),广泛应用于场景理解、医学图像分析、自动驾驶、地理信息系统和增强现实(Strudel et al., 2021; Sun et al., 2023)。虽然深度神经网络的发展显著提升了分割任务的表现(Chen et al., 2014; Guan et al., 2021; Zhao et al., 2017),但这些进展要求大量像素级标注数据进行模型训练,获取这些数据在现实场景中代价高昂(Jiang et al., 2022; Liang et al., 2023)。与此同时,当测试数据与训练数据存在分布差异时,多数分割方法的性能通常会下降(Huang et al., 2022)。为解决这些问题,研究人员提出了无监督领域自适应(Unsupervised Domain Adaptation, UDA)方法以提升模型泛化能力(Xu et al., 2021)。

论文来源

本文题目为《Unsupervised Domain Adaptive Segmentation Algorithm Based on Two-Level Category Alignment》,由武汉大学计算机学院的Dong Wenyong及其团队撰写,包括Liang Zhixue、Wang Liping、Tian Gang和Long Qianhui。本论文发表于2024年的《Neural Networks》期刊上,文章编号为106399。

图1

研究背景与问题

目前,大多数无监督领域自适应分割方法主要关注于像素级别的局部特征,但忽略了类别信息的线索。这限制了分割网络只能学习全局的跨域不变特征而忽略细粒度的跨域不变特征,导致分割性能退化。为了应对这一问题,本文提出了一种基于两级类别对准的无监督领域自适应算法(UDA$_{CA}^+$),用于语义分割任务。

研究流程与方法

整体架构

UDA$_{CA}^+$的架构如图1所示,主要包括ClassMix模块、学生网络和教师网络,以及图像级和像素级类别对准模块。网络包含三个分支:目标域分支($B_t$),源域分支($B_s$),以及混合域分支($B_m$)。

研究对象与处理步骤

  1. 源域与目标域数据集

    • 源域数据集:来自合成环境的白天场景图像。
    • 目标域数据集:来自真实环境的对应场景图像,包括GTA和Cityscapes数据集。
    • 处理:所有数据进行了尺寸缩放、随机裁剪、随机水平翻转和RGB均值标准化等预处理操作。
  2. 源域模型训练

    • 输入:源域图像$x_s$。
    • 输出:通过语义分割学生网络$g_{\theta}$获得预测$y_s$。
    • 损失:使用标准交叉熵损失对学生网络进行约束。
  3. 目标域模型训练

    • 输入:目标域图像$x_t$。
    • 输出:通过教师网络$h_{\phi}$,获得预测$y_t$,并进一步生成伪标签。
    • 伪标签:通过最大概率值确定类别,并引入置信度计算方法来减轻负迁移和过度对准问题。

两级类别对准策略

  1. 图像级类别对准(IDA):基于类激活图(Class Activation Map, CAM),聚焦于类别的深层信息,如位置、分布和特征中心。
  2. 像素级类别对准(PDA):基于伪标签,关注类别的浅层信息,如纹理、颜色和局部上下文。

对抗学习策略

  • 特征空间对抗学习:在特征空间中,通过对抗学习对准源域和目标域的类别特征中心,平衡不同类别的特征分布。
  • 输出空间对抗学习:在输出空间中,进一步对准类别的空间分布图,从而实现全局和局部信息的对齐。

混合域策略

  1. 图像混合策略:采用ClassMix方法生成混合图像$x_m$及其标签$y_m$,通过对抗学习和自训练共同优化UDA分割模型。
  2. 联合对准策略:混合域分支通过IDA和PDA模块,在特征和输出空间中进行对抗学习,优化UDA分割模型。

结果与分析

定量实验结果

在GTA→Cityscapes和Synthia→Cityscapes两个数据集上的实验结果表明,UDA${CA}^+$显著提升了分割性能,超越了之前的SOTA方法。具体而言: - 在GTA→Cityscapes任务中,UDA${CA}^+$实现了69.7%的miou,相较于基线模型Segformer提升了21.4%。 - 在Synthia→Cityscapes任务中,UDA$_{CA}^+$在16个类别(miou16)和13个类别(miou13)中的表现分别提升了20.3%和21.1%。

质性实验结果

如图6所示,UDA$_{CA}^+$在多个场景内容的预测效果较SOTA方法如Daformer有更好表现,特别是在草地、树木、人行道、建筑物和墙壁的预测上都有显著提升。

消融实验

研究还进行了详细的消融实验,以研究两级类别对准模块和对抗学习模块的影响。结果表明: - 结合图像级和像素级类别对准模块,算法性能比加入任何一个单独模块有更明显的提升。 - 特征空间和输出空间的联合对抗学习则进一步提升了分割网络对域间不变性的捕获能力。

研究结论

本文提出的UDA语义分割算法通过在特征和输出空间中的两级类别对准策略,成功缓解了源域和目标域之间的域偏移问题。实验结果验证了所提策略的有效性,在两个合成到真实的自适应任务上都达到了SOTA性能。未来研究可进一步优化类激活图的生成,以提升模型性能。