基于姿态感知对比学习的样本一致性面部表示学习

提升自监督面部表征学习的姿势感知能力

研究背景与问题提出

在计算机视觉领域,面部表征学习(Facial Representation Learning)是一项重要的研究任务。通过分析面部图像,我们可以提取身份、情绪和姿态等信息,从而为面部表情识别(Facial Expression Recognition, FER)、人脸识别(Face Recognition, FR)、头部姿态估计(Head Pose Estimation, HPE)等下游任务提供支持。近年来,深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)在面部理解任务中取得了显著成果,但这些方法通常依赖于大规模标注数据集进行监督学习,而标注数据需要大量人工成本,且可能无法很好地泛化到其他数据集。

为了克服这一限制,自监督学习(Self-Supervised Learning, SSL)逐渐成为一种有前景的替代方案。特别是基于对比学习(Contrastive Learning, CL)的方法,通过构建正样本对和负样本对来学习有意义的视觉表征,而无需依赖显式标注。然而,尽管现有方法在无标签数据上表现良好,它们在处理面部姿态变化时仍存在不足。具体而言,传统CL方法倾向于学习对姿态不敏感的特征,这可能导致一些有用的姿态细节丢失。此外,由于正负样本对的选择方式不够合理,现有的CL方法可能会引入假负样本对(False-Negative Pairs),从而影响模型的学习效果。

针对这些问题,本文作者提出了一种新的框架——Pose-Disentangled Contrastive Facial Representation Learning (PCFRL),旨在增强自监督面部表征学习中的姿态感知能力,并通过更合理的样本校准策略改进对比学习的效果。


论文来源

这篇论文由Yuanyuan Liu、Shaoze Feng、Zhe Chen等人撰写,作者分别来自中国地质大学(武汉)、云南联合视觉技术有限公司、云南大学以及澳大利亚拉筹伯大学(La Trobe University)。论文发表于《International Journal of Computer Vision》(IJCV),接收时间为2025年1月6日,DOI为10.1007/s11263-025-02348-z


研究内容与方法

a) 研究流程与方法

本文的研究流程分为三个主要部分:特征解耦(Feature Disentanglement)假负样本对校准(False-Negative Pair Calibration)改进的对比学习损失设计(Calibrated Contrastive Learning Losses)

1. 特征解耦

作者首先提出了一种名为Pose-Decoupling Decoder (PDD) 的模块,用于将姿态相关特征(Pose-Aware Features)与非姿态面部特征(Non-Pose Face-Aware Features)分离。PDD通过重建目标约束实现解耦,确保同一张面部图像在不同姿态下可以基于新姿态特征和原始非姿态特征进行重建。数学上,解耦过程通过以下损失函数实现: - 重建损失(Reconstruction Loss, (L_{dis})):衡量原始图像与其重建版本之间的差异。 - 正交损失(Orthogonal Loss, (L_{orth})):确保解耦后的两种特征彼此正交,减少冗余信息。

2. 假负样本对校准

在特征解耦后,作者观察到直接使用传统CL方法会导致假负样本对问题。例如,两张具有相同姿态但属于不同个体的图像可能会被错误地选为负样本对。为了解决这一问题,作者提出了一种基于邻域凝聚对齐(Neighborhood-Cohesive Pair Alignment, NPA) 的方法,用于识别并校准假负样本对。NPA方法结合了余弦相似性(Cosine Similarity)和邻域样本一致性得分(Neighborhood Sample Consistency Score),并通过一个阈值机制动态调整假负样本对的校准。

3. 改进的对比学习损失设计

为了进一步优化校准后的样本对学习,作者设计了两种新的对比学习损失函数: - 校准姿态感知对比损失(Calibrated Pose-Aware CL Loss, (L’_p)) - 校准非姿态面部感知对比损失(Calibrated Face-Aware CL Loss, (L’_f))

这两种损失函数通过自适应加权策略动态优化校准后的样本对,从而提高模型的鲁棒性和泛化能力。


b) 主要结果

1. 特征解耦效果

实验表明,PDD模块能够有效分离姿态相关特征和非姿态面部特征。通过t-SNE可视化,作者展示了PCFRL框架学习到的特征比其先前版本(PCL)更具区分度。

2. 假负样本对校准效果

通过NPA方法,作者成功识别并校准了大量假负样本对。与仅依赖余弦相似性的方法相比,NPA方法在校准姿态感知和非姿态面部感知假负样本对方面表现出显著优势。

3. 下游任务性能提升

在四个下游任务(FER、FR、面部动作单元检测、HPE)中,PCFRL均优于现有最先进的方法。例如,在RAF-DB数据集上的FER任务中,PCFRL的准确率达到了75.68%,比PCL提高了1.21%;在CPLFW数据集上的FR任务中,PCFRL的准确率达到了66.17%,比PCL提高了2.41%。


结论与价值

c) 研究结论与意义

本文提出的PCFRL框架通过特征解耦、假负样本对校准和改进的对比学习损失设计,显著提升了自监督面部表征学习的性能。研究结果表明,增强姿态感知能力对于鲁棒的面部表征学习至关重要。

从科学价值来看,PCFRL为解决自监督学习中的假负样本对问题提供了新思路,并验证了邻域凝聚对齐方法的有效性。从应用价值来看,该框架在多个面部相关任务中表现出色,为实际应用场景(如智能监控、人机交互)提供了技术支持。


d) 研究亮点

  1. 创新性工作流程:PCFRL首次将特征解耦与假负样本对校准相结合,解决了传统CL方法在姿态感知方面的不足。
  2. 新颖的NPA方法:通过综合考虑邻域样本关系,NPA方法能够更准确地识别假负样本对。
  3. 改进的对比学习损失:自适应加权策略使得模型能够更有效地优化校准后的样本对。

总结

本文由Yuanyuan Liu等人提出了一种全新的自监督面部表征学习框架——PCFRL,旨在通过增强姿态感知能力来改进面部表征学习。研究不仅解决了传统CL方法中的假负样本对问题,还为自监督学习在面部相关任务中的应用提供了重要参考。未来,作者计划进一步探索如何利用物理先验知识来处理复杂噪声,从而进一步提升模型的鲁棒性。