双空间视频行人重识别

双空间视频行人再识别研究

背景介绍

行人再识别(Person Re-Identification, ReID)技术旨在通过不同摄像头拍摄的图像或视频序列,识别出特定个体。近年来,随着深度学习技术的快速发展,ReID 技术在城市安防、失踪人员搜索和嫌疑人追踪等领域展现了巨大的应用潜力。然而,现有的 ReID 方法主要依赖于欧几里得空间进行特征表示学习,这在处理复杂场景时面临诸多挑战,例如遮挡、背景杂乱以及复杂的时空信息建模问题。

为了解决这些问题,重庆邮电大学的研究团队提出了一种名为“双空间视频行人再识别”(Dual-Space Video Person Re-Identification, DS-VReID)的新框架。该框架首次将双曲空间引入视频行人再识别任务中,结合欧几里得空间和双曲空间的优势,以更有效地捕捉视觉特征和层次结构关系,从而提升识别性能。这一研究的意义在于探索了非欧几何在计算机视觉领域的潜在价值,并为解决复杂场景中的行人再识别问题提供了新思路。

研究来源

本研究由重庆邮电大学图像认知重点实验室(Key Laboratory of Image Cognition, Chongqing University of Posts and Telecommunications)和重庆脑与智能研究院(Chongqing Institute for Brain and Intelligence)的研究团队完成。论文的第一作者是 Jiaxu Leng,通讯作者是 Xinbo Gao 教授。论文发表于《国际计算机视觉期刊》(International Journal of Computer Vision),接收日期为 2025 年 1 月 6 日,DOI 为 10.1007/s11263-025-02350-5

研究内容与方法

a) 研究流程

DS-VReID 框架主要包括三个模块:动态提示图构建(Dynamic Prompt Graph Construction, DPGC)、双曲解耦聚合(Hyperbolic Disentangled Aggregation, HDA)和双空间融合(Dual-Space Fusion, DSF)。以下是每个模块的具体工作流程:

1. 动态提示图构建(DPGC)

DPGC 模块的目标是从视频中提取人体区域并构建人体骨架图。具体流程如下: - 输入数据:研究使用 MARS 数据集中的视频序列,每段视频包含 8 帧,分辨率为 256×128。 - 特征提取:视频帧首先被送入预训练的 CLIP 模型(Radford et al., 2021)中提取视觉特征。CLIP 模型结合了全局文本描述(如“人”、“头部”、“躯干”等)和动态提示(Dynamic Prompts)来定位人体区域。 - 粗到细策略:DPGC 模块采用粗到细的特征提取策略。首先,通过全局描述(如“一个人”)定位整个人体;然后,通过局部描述(如“人的头部部分”)提取具体的局部特征。 - 图构建:提取的人体局部区域作为图节点,节点之间的关系作为边,最终构建人体骨架图。

2. 双曲解耦聚合(HDA)

HDA 模块旨在解决双曲空间中长距离依赖建模的问题。其核心思想是将邻接矩阵分解为不同阶次的子矩阵,并通过滑动时间窗口策略逐步聚合时空信息。具体步骤如下: - 空间域处理:基于节点间的距离计算 k 阶邻接矩阵 (A_k),并对同一距离的节点赋予统一权重。 - 时间域处理:选择特定时间窗口内的帧进行聚合,逐步整合整个视频序列的信息。 - 双曲 GCN 操作:在双曲空间中执行图卷积操作,以捕获详细的时空层次关系。

3. 双空间融合(DSF)

DSF 模块将欧几里得空间和双曲空间的特征表示进行融合,以充分利用两种空间的优势。具体方法包括: - 将双曲空间中的特征映射回切空间(Tangent Space)。 - 在切空间中对两种特征进行加权融合,得到最终的特征表示。

b) 主要结果

1. DPGC 模块的效果

实验表明,DPGC 模块显著提升了模型的识别性能。在 MARS 数据集上,仅使用基线模型时,mAP 和 Rank-1 准确率分别为 82.1% 和 88.5%;加入 DPGC 模块后,这两项指标分别提高了 3.6% 和 1.8%。这表明 DPGC 模块能够有效消除背景噪声,专注于行人相关区域。

2. HDA 模块的效果

HDA 模块进一步增强了模型的性能。在 MARS 数据集上,加入 HDA 模块后,mAP 和 Rank-1 准确率分别提高了 1.7% 和 1.0%。实验还发现,较小的时间窗口(如 τ=[3,3])能够更好地适应双曲空间的距离特性,从而提升性能。

3. DSF 模块的效果

双空间融合模块(DSF)将欧几里得空间和双曲空间的特征结合起来,显著提升了模型的整体性能。在 MARS 数据集上,DS-VReID 的最终 mAP 和 Rank-1 准确率分别达到 87.6% 和 92.3%,超过了现有最先进的方法。

c) 研究结论

DS-VReID 框架通过结合欧几里得空间和双曲空间的优势,成功解决了复杂场景中的行人再识别问题。该方法不仅在 MARS、LS-VID 和 DukeMTMC-VideoReID 等多个数据集上取得了最佳性能,还在 ILIDS-VID 和 PRID2011 数据集上表现出色。这些结果证明了 DS-VReID 在捕捉视觉特征和层次结构关系方面的优越性。

d) 研究亮点

  1. 创新性:首次将双曲空间引入视频行人再识别任务,提出了双空间融合的思想。
  2. 实用性:DPGC 模块通过动态提示和粗到细策略,有效减少了背景噪声的影响。
  3. 技术突破:HDA 模块解决了双曲空间中长距离依赖建模的难题,显著提升了模型性能。
  4. 全面性:通过多模块协同工作,实现了对复杂场景的高效建模。

e) 其他有价值的信息

研究团队还进行了大量消融实验,验证了各模块的有效性。例如,不同的文本提示设计对性能有显著影响,“a {cls} part of a person” 提示取得了最佳效果。此外,实验还表明,动态提示在捕捉视频中的细微变化和动态信息方面发挥了关键作用。

研究意义与价值

DS-VReID 框架不仅为行人再识别领域提供了一种新的解决方案,还展示了非欧几何在计算机视觉中的潜在应用价值。该方法在处理遮挡和背景杂乱等复杂场景时表现出色,具有广泛的应用前景,例如城市安防监控、智能交通系统和大规模人群分析等。此外,该研究为未来探索双曲空间在其他计算机视觉任务中的应用奠定了基础。