分享自:

跨模态知识解耦与对齐的可见光-红外终身行人重识别方法

期刊:association for the advancement of artificial intelligence

本文档属于类型a:单篇原创研究报告。以下是针对该研究的学术报告:


作者及机构
本研究的通讯作者为Zhenyu Cui、Jiahuan Zhou和Yuxin Peng*(标注星号为通讯作者),均来自北京大学王选计算机研究所。论文发表于2026年人工智能领域顶级会议AAAI(Association for the Advancement of Artificial Intelligence),标题为《CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-infrared Lifelong Person Re-identification》。


学术背景

研究领域与动机
该研究聚焦于可见光-红外终身行人重识别(Visible-infrared Lifelong Person Re-identification, VI-LReID),属于计算机视觉与模式识别领域。传统行人重识别(ReID)依赖静态数据集,而终身学习(Lifelong Learning)需处理连续采集的多场景数据,核心挑战是缓解灾难性遗忘(Catastrophic Forgetting)——即新知识学习导致旧知识丢失的问题。
背景问题:现有方法通过跨模态知识蒸馏(Cross-modality Knowledge Distillation)缓解遗忘,但忽视了模态特有知识(Modality-specific Knowledge)模态共有知识(Modality-common Knowledge)的相互干扰,导致两者协同遗忘(Collaborative Forgetting)。例如,红外模态的辐射特征(新知识)可能覆盖可见光模态的共有形状特征(旧知识)。

研究目标
提出跨模态知识解耦与对齐方法(CKDA),通过显式分离和平衡两种知识,实现终身学习中的跨模态行人匹配。


研究流程与方法

1. 方法框架

CKDA包含三个核心模块:
1. 模态共有提示模块(Modality-common Prompting, MCP)
- 功能:提取可见光与红外图像共有的判别性特征(如人体轮廓)。
- 技术细节
- 输入图像分块为Token,通过实例归一化(Instance Normalization)消除模态风格差异。
- 设计通道注意力机制动态融合原始特征与归一化特征(公式5-6),保留共有知识。
2. 模态特有提示模块(Modality-specific Prompting, MSP)
- 功能:提取仅存在于单一模态的特征(如可见光的颜色或红外的热辐射)。
- 技术细节
- 为可见光和红外模态分别设计轻量级提示生成网络(公式8),通过批归一化(BatchNorm)增强模态差异。
3. 跨模态知识对齐模块(Cross-modality Knowledge Aligning, CKA)
- 功能:在模态间(Inter-modality)模态内(Intra-modality)特征空间中对齐新旧知识。
- 技术细节
- 利用旧阶段的身份原型(Identity Prototypes)构建特征空间(公式10-11),通过KL散度(Kullback-Leibler Divergence)对齐新旧分布(公式12-14)。

2. 实验设计

  • 数据集:采用RegDB、SYSU-MM01、LLCM和HITSZ-VCM四个基准数据集,按顺序训练模拟终身学习场景。
  • 基线模型:基于ViT-B/16主干网络,结合分类损失(Cross-entropy Loss)和三元组损失(Triplet Loss)。
  • 对比方法:包括重放式(Replay-based)和非重放式(Non-replay)方法,如LwF、iCaRL、TTQK等。

3. 创新方法

  • 双提示模块:首次显式解耦模态共有与特有知识,避免相互干扰。
  • 原型对齐:通过双模态原型实现无旧数据重放的终身学习,解决隐私问题。

主要结果

  1. 性能对比

    • 在平均mAP/R1指标上,CKDA达到36.3%/39.4%,优于非重放SOTA方法LSTKC(+5.7%/6.9%)。
    • 遗忘率(Average Forgetting, AF)最低(mAP/R1:5.1%/4.9%),证明其抗遗忘能力。
  2. 消融实验

    • 单独使用MCP或MSP分别提升基线性能1.6%/1.3%和1.2%/2.2%,联合CKA后总提升达4.5%/5.5%。
  3. 可视化验证

    • 热图显示MCP聚焦人体轮廓(共有知识),MSP捕获模态特有特征(如红外热辐射)。
    • t-SNE可视化表明CKDA在旧数据集(RegDB)和新数据集(VCM)上均保持特征判别性。

结论与价值

科学价值
1. 提出首个针对VI-LReID的知识解耦与对齐框架,为解决跨模态终身学习中的协同遗忘问题提供新思路。
2. 通过双提示模块和原型对齐,平衡知识获取与保留,无需依赖旧数据重放,保护隐私。

应用价值
可部署于全天候安防系统,实现昼夜连续行人追踪,提升跨模态场景的鲁棒性。


研究亮点

  1. 方法创新:显式解耦模态共有与特有知识,突破传统蒸馏方法的局限性。
  2. 技术突破:CKA模块通过双空间对齐实现知识平衡,无需存储旧数据。
  3. 实验全面性:覆盖四种数据集和多种SOTA对比方法,验证普适性。

其他价值

  • 开源代码(GitHub链接)促进社区复现与拓展。
  • 提出的模态共有知识提取方法可迁移至其他跨模态任务(如多光谱图像分析)。

(报告总字数:约1500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com