本文档属于类型a:单篇原创研究报告。以下是针对该研究的学术报告:
作者及机构
本研究的通讯作者为Zhenyu Cui、Jiahuan Zhou和Yuxin Peng*(标注星号为通讯作者),均来自北京大学王选计算机研究所。论文发表于2026年人工智能领域顶级会议AAAI(Association for the Advancement of Artificial Intelligence),标题为《CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-infrared Lifelong Person Re-identification》。
研究领域与动机
该研究聚焦于可见光-红外终身行人重识别(Visible-infrared Lifelong Person Re-identification, VI-LReID),属于计算机视觉与模式识别领域。传统行人重识别(ReID)依赖静态数据集,而终身学习(Lifelong Learning)需处理连续采集的多场景数据,核心挑战是缓解灾难性遗忘(Catastrophic Forgetting)——即新知识学习导致旧知识丢失的问题。
背景问题:现有方法通过跨模态知识蒸馏(Cross-modality Knowledge Distillation)缓解遗忘,但忽视了模态特有知识(Modality-specific Knowledge)与模态共有知识(Modality-common Knowledge)的相互干扰,导致两者协同遗忘(Collaborative Forgetting)。例如,红外模态的辐射特征(新知识)可能覆盖可见光模态的共有形状特征(旧知识)。
研究目标
提出跨模态知识解耦与对齐方法(CKDA),通过显式分离和平衡两种知识,实现终身学习中的跨模态行人匹配。
CKDA包含三个核心模块:
1. 模态共有提示模块(Modality-common Prompting, MCP)
- 功能:提取可见光与红外图像共有的判别性特征(如人体轮廓)。
- 技术细节:
- 输入图像分块为Token,通过实例归一化(Instance Normalization)消除模态风格差异。
- 设计通道注意力机制动态融合原始特征与归一化特征(公式5-6),保留共有知识。
2. 模态特有提示模块(Modality-specific Prompting, MSP)
- 功能:提取仅存在于单一模态的特征(如可见光的颜色或红外的热辐射)。
- 技术细节:
- 为可见光和红外模态分别设计轻量级提示生成网络(公式8),通过批归一化(BatchNorm)增强模态差异。
3. 跨模态知识对齐模块(Cross-modality Knowledge Aligning, CKA)
- 功能:在模态间(Inter-modality)和模态内(Intra-modality)特征空间中对齐新旧知识。
- 技术细节:
- 利用旧阶段的身份原型(Identity Prototypes)构建特征空间(公式10-11),通过KL散度(Kullback-Leibler Divergence)对齐新旧分布(公式12-14)。
性能对比
消融实验
可视化验证
科学价值
1. 提出首个针对VI-LReID的知识解耦与对齐框架,为解决跨模态终身学习中的协同遗忘问题提供新思路。
2. 通过双提示模块和原型对齐,平衡知识获取与保留,无需依赖旧数据重放,保护隐私。
应用价值
可部署于全天候安防系统,实现昼夜连续行人追踪,提升跨模态场景的鲁棒性。
(报告总字数:约1500字)