分享自:

近红外-可见光人脸识别的正交模态解耦与表示对齐网络

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/tcsvt.2021.3105411

报告

作者信息与发表情况

本文题为《Orthogonal Modality Disentanglement and Representation Alignment Network for NIR-VIS Face Recognition》,由Weipeng Hu和Haifeng Hu共同撰写。Weipeng Hu是孙中山大学电子与信息技术学院的博士生,Haifeng Hu是该学院的教授。这项研究发表于IEEE Transactions on Circuits and Systems for Video Technology,第32卷第6期,时间为2022年6月。


研究背景

科学领域与研究动机
研究属于跨模态人脸识别(Heterogeneous Face Recognition, HFR)领域,特别是近红外(Near-Infrared, NIR)和可见光(Visible Spectrum, VIS)人脸匹配任务。HFR在多媒体数据检索、犯罪跟踪等方面具有广泛应用,但由于跨模态图像之间模态差异较大以及残差变化(如光照、表情、遮挡、模糊、姿态等因素)的影响,该任务挑战巨大。传统方法主要聚焦于模态差距的减小,而忽视了对残差变化的处理。

近年来,卷积神经网络(Convolutional Neural Networks, CNNs)在计算机视觉领域的成功为研究跨模态人脸识别带来了新思路。然而,如何同时解决模态差异与残差变化的问题以提取身份辨识特征,仍是目前的一大难题。本文创新性地提出了一种整合性解决方案,即正交模态解耦与表示对齐网络(Orthogonal Modality Disentanglement and Representation Alignment, OMDRA),旨在提高跨模态人脸识别的性能。

研究目标
具体目标包括: 1. 减少NIR和VIS数据之间的模态差异并增强表征能力; 2. 消除跨域人脸图像的残差变化; 3. 提取模态无关、残差无关且身份区分度高的特征表征。


工作流程

网络结构与模块设计
OMDRA模型采用端到端的网络结构,整合了以下三个关键模块:
1. 模态无关损失(Modality-Invariant Loss, MI Loss)
通过增加类间分离度和类内紧凑性,促使模型学习模态无关的身份表征特征。
- 在这种损失中设计了类内约束(intra-class constraint)和类间约束(inter-class constraint),涉及变量如类平均向量、类间距离等,目标是缩小同一类别跨模态数据的分布差异,同时提高不同类别数据的分离度。

  1. 正交模态解耦模块(Orthogonal Modality Disentanglement, OMD)
    高级特征被投影到两个子空间:模态相关子空间和身份相关子空间。通过对抗式训练(adversarial process)减少模态间的差异。此外,引入正交表示解相关约束(Orthogonal Representation Decorrelation, ORD),防止特征冗余并增强特征表征能力。

    • 反向对抗机制:通过min-max双玩家博弈,特定模态信息在子空间中被显式学习,同时从主干网络中有效解耦模态特定信息。
    • 三种正交约束:包括模态内自相似性约束、模态间互不相关性约束等,确保特征子空间之间的解耦性。
  2. 深层表示对齐模块(Deep Representation Alignment, DRA)
    执行非中性人脸与中性人脸之间的高层次表示对齐,以降低残差相关的表征变化。通过强制对齐一步步指导网络生成具有更多身份信息的特征。

    • 对齐策略:通过交叉模态类内最小化和类间最大化,减少中性脸的类内变差,同时增大类间差异。

数据集及优化
模型在多种跨模态人脸数据集上(CASIA NIR-VIS 2.0、OULU-CASIA NIR-VIS、BUAA NIR-VIS)进行评估。研究在优化阶段,初始使用MS-Celeb-1M数据库预训练Inception-ResNet-V1网络,然后对跨模态数据集分别进行微调。具体的迭代优化策略包含以下步骤: 1. 最小化身份损失(Identity Loss),更新身份相关子空间参数; 2. 最小化模态损失(Modality Loss),更新模态相关子空间参数; 3. 最大化模态损失,进一步解耦模态变化; 4. 最后通过深层对齐损失进一步提升性能。


实验结果

CASIA NIR-VIS 2.0数据库
该数据库包含725个类别,共17,580张图像,涉及光谱差异、表情、遮挡等复合特征。OMDRA在Rank-1准确率和验证率上分别达到99.6%和99.4%,显著优于现有方法(如Wasserstein CNN、Residual Compensation Networks等),表明网络能有效地减小模态和残差相关的变化。

OULU-CASIA NIR-VIS数据库
OULU-CASIA数据库较为复杂,包含不同光照(正常室内、黑暗、弱光)和表情(高兴、悲伤等)变化。OMDRA在Rank-1准确率上达到97.8%,尽管复杂性高,性能依旧优于其他主流方法如CDL和IDR。

BUAA NIR-VIS数据库
该数据库以姿态变化为主(倾斜、旋转等),OMDRA在验证率(VR@FAR = 0.1%)上达到了99.7%,证明了其在减少样本残差变异上的能力。

分析与对比
1. 特征可视化:通过PCA降维图可以直观看出OMDRA减少了同一类别内特征的离散性,同时增强了类别间的区分度; 2. 误分类分析:错误分类主要集中在极端姿态情况下,显示这是未来HFR研究需进一步优化的方向; 3. 与现有方法对比:无论在实验设置或真实复杂环境数据集上,OMDRA均明显优于传统特征工程方法和其他深度学习模型。


研究结论和意义

结论
OMDRA通过整合MI、OMD和DRA三部分模块,实现了模态差异的有效解耦、残差变化的消除及身份信息的提取。其联合策略显著提升了NIR-VIS跨模态匹配任务中的性能,展示了模态-残差独立表征学习的潜力。

科学意义和应用价值
1. 科学意义:OMDRA模型率先在一体化框架中同时解决了模态差异和残差变化问题,为跨模态人脸识别提供了新思路; 2. 实际应用:NIR-VIS匹配在视频监控、生物识别、安防领域有广泛应用,尤其是在低光环境下显现显著优势。

研究亮点
1. 提出了跨模态和残差变化的联合解耦策略; 2. 引入正交表示解相关逻辑,提升了特征空间的独立性与鲁棒性; 3. 实验结果在多个挑战性数据库中都优于当前技术水平。

OMDRA代表了HFR研究领域的一次重要进步,不仅为跨光谱人脸识别设定了新的性能标杆,也为解决复杂环境下的数据耦合问题提供了参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com