近红外-可见光人脸识别的正交模态解耦与表示对齐网络

分享自：
近红外-可见光人脸识别的正交模态解耦与表示对齐网络

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/tcsvt.2021.3105411
报告作者信息与发表情况本文题为《Orthogonal Modality Disentanglement and Representation Alignment Network for NIR-VIS Face Recognition》，由Weipeng Hu和Haifeng Hu共同撰写。Weipeng Hu是孙中山大学电子与信息技术学院的博士生，Haifeng Hu是该学院的教授。这项研究发表于IEEE Transactions on Circuits and Systems for Video Technology，第32卷第6期，时间为2022年6月。
研究背景科学领域与研究动机
 研究属于跨模态人脸识别（Heterogeneous Face Recognition, HFR）领域，特别是近红外（Near-Infrared, NIR）和可见光（Visible Spectrum, VIS）人脸匹配任务。HFR在多媒体数据检索、犯罪跟踪等方面具有广泛应用，但由于跨模态图像之间模态差异较大以及残差变化（如光照、表情、遮挡、模糊、姿态等因素）的影响，该任务挑战巨大。传统方法主要聚焦于模态差距的减小，而忽视了对残差变化的处理。
近年来，卷积神经网络（Convolutional Neural Networks, CNNs）在计算机视觉领域的成功为研究跨模态人脸识别带来了新思路。然而，如何同时解决模态差异与残差变化的问题以提取身份辨识特征，仍是目前的一大难题。本文创新性地提出了一种整合性解决方案，即正交模态解耦与表示对齐网络（Orthogonal Modality Disentanglement and Representation Alignment, OMDRA），旨在提高跨模态人脸识别的性能。
研究目标
 具体目标包括： 1. 减少NIR和VIS数据之间的模态差异并增强表征能力； 2. 消除跨域人脸图像的残差变化； 3. 提取模态无关、残差无关且身份区分度高的特征表征。
工作流程网络结构与模块设计
 OMDRA模型采用端到端的网络结构，整合了以下三个关键模块：
 1. 模态无关损失（Modality-Invariant Loss, MI Loss）：
 通过增加类间分离度和类内紧凑性，促使模型学习模态无关的身份表征特征。
 - 在这种损失中设计了类内约束（intra-class constraint）和类间约束（inter-class constraint），涉及变量如类平均向量、类间距离等，目标是缩小同一类别跨模态数据的分布差异，同时提高不同类别数据的分离度。
正交模态解耦模块（Orthogonal Modality Disentanglement, OMD）：
 高级特征被投影到两个子空间：模态相关子空间和身份相关子空间。通过对抗式训练（adversarial process）减少模态间的差异。此外，引入正交表示解相关约束（Orthogonal Representation Decorrelation, ORD），防止特征冗余并增强特征表征能力。
反向对抗机制：通过min-max双玩家博弈，特定模态信息在子空间中被显式学习，同时从主干网络中有效解耦模态特定信息。
三种正交约束：包括模态内自相似性约束、模态间互不相关性约束等，确保特征子空间之间的解耦性。
深层表示对齐模块（Deep Representation Alignment, DRA）：
 执行非中性人脸与中性人脸之间的高层次表示对齐，以降低残差相关的表征变化。通过强制对齐一步步指导网络生成具有更多身份信息的特征。
对齐策略：通过交叉模态类内最小化和类间最大化，减少中性脸的类内变差，同时增大类间差异。
数据集及优化
 模型在多种跨模态人脸数据集上（CASIA NIR-VIS 2.0、OULU-CASIA NIR-VIS、BUAA NIR-VIS）进行评估。研究在优化阶段，初始使用MS-Celeb-1M数据库预训练Inception-ResNet-V1网络，然后对跨模态数据集分别进行微调。具体的迭代优化策略包含以下步骤： 1. 最小化身份损失（Identity Loss），更新身份相关子空间参数； 2. 最小化模态损失（Modality Loss），更新模态相关子空间参数； 3. 最大化模态损失，进一步解耦模态变化； 4. 最后通过深层对齐损失进一步提升性能。
实验结果CASIA NIR-VIS 2.0数据库
 该数据库包含725个类别，共17,580张图像，涉及光谱差异、表情、遮挡等复合特征。OMDRA在Rank-1准确率和验证率上分别达到99.6%和99.4%，显著优于现有方法（如Wasserstein CNN、Residual Compensation Networks等），表明网络能有效地减小模态和残差相关的变化。
OULU-CASIA NIR-VIS数据库
 OULU-CASIA数据库较为复杂，包含不同光照（正常室内、黑暗、弱光）和表情（高兴、悲伤等）变化。OMDRA在Rank-1准确率上达到97.8%，尽管复杂性高，性能依旧优于其他主流方法如CDL和IDR。
BUAA NIR-VIS数据库
 该数据库以姿态变化为主（倾斜、旋转等），OMDRA在验证率（VR@FAR = 0.1%）上达到了99.7%，证明了其在减少样本残差变异上的能力。
分析与对比
 1. 特征可视化：通过PCA降维图可以直观看出OMDRA减少了同一类别内特征的离散性，同时增强了类别间的区分度； 2. 误分类分析：错误分类主要集中在极端姿态情况下，显示这是未来HFR研究需进一步优化的方向； 3. 与现有方法对比：无论在实验设置或真实复杂环境数据集上，OMDRA均明显优于传统特征工程方法和其他深度学习模型。
研究结论和意义结论
 OMDRA通过整合MI、OMD和DRA三部分模块，实现了模态差异的有效解耦、残差变化的消除及身份信息的提取。其联合策略显著提升了NIR-VIS跨模态匹配任务中的性能，展示了模态-残差独立表征学习的潜力。
科学意义和应用价值
 1. 科学意义：OMDRA模型率先在一体化框架中同时解决了模态差异和残差变化问题，为跨模态人脸识别提供了新思路； 2. 实际应用：NIR-VIS匹配在视频监控、生物识别、安防领域有广泛应用，尤其是在低光环境下显现显著优势。
研究亮点
 1. 提出了跨模态和残差变化的联合解耦策略； 2. 引入正交表示解相关逻辑，提升了特征空间的独立性与鲁棒性； 3. 实验结果在多个挑战性数据库中都优于当前技术水平。
OMDRA代表了HFR研究领域的一次重要进步，不仅为跨光谱人脸识别设定了新的性能标杆，也为解决复杂环境下的数据耦合问题提供了参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问