分享自:

联合特征学习与关系建模:一种单流跟踪框架

期刊:Lecture Notes in Computer Science (LNCS)DOI:10.1007/978-3-031-20047-2_20

学术报告

作者及研究机构

该研究的主要作者包括 Botao Ye、Hong Chang (通讯作者)、Bingpeng Ma、Shiguang Shan 和 Xilin Chen。作者隶属于以下机构:

  1. 中国科学院智能信息处理重点实验室(Key Lab of Intelligent Information Processing of Chinese Academy of Sciences, CAS),北京计算技术研究所;
  2. 中国科学院大学(University of Chinese Academy of Sciences)。

研究发表于 ECCV 2022,具体文章信息为:LNCS 13682, pp. 341–357,Springer出版社出版。


学术背景

该研究属于计算机视觉领域,研究的主要方向是基于目标的视觉跟踪(Visual Object Tracking, VOT)。目标跟踪的任务是根据初始给定目标外观,在视频的每一帧中对目标进行定位。然而,由于目标和背景的动态变化与复杂性,该任务极具挑战性。现有的主流跟踪框架普遍采用的是“两流两阶段”(Two-stream, Two-stage)的结构,即分别提取模板(Template)和搜索区域(Search Region)的特征,然后进行特征关系建模。然而,这种分离结构存在以下几个缺陷: 1. 提取的特征缺乏对目标的感知,因而在目标与背景的辨别性上受到限制。 2. 由于特征提取和关系建模的分离,效率和性能之间存在矛盾,部分现有方法模型参数过多,导致速度受限。

针对以上问题,该研究提出了一种全新的单流单阶段目标跟踪框架(One-stream, One-stage Tracking Framework),名为 OSTrack。本文的目的在于通过联合特征学习与关系建模提升目标跟踪的性能,并提出一种新颖的候选目标早期过滤模块(Early Candidate Elimination Module),以提高推理效率。


研究流程与方法

整体研究框架

OSTrack通过单流单阶段方法实现特征提取和关系建模的统一化,与传统的“两流两阶段”架构相比显得更加紧凑与高效。系统主要包括以下核心模块: 1. 联合特征提取与关系建模模型:基于Vision Transformer(ViT)构建,首创地将模板图像与搜索区域拼接后输入同一Transformer网络中,从而实现两者信息的交互与目标导向的动态特征提取。 2. 早期目标候选过滤模块:通过基于ViT计算的相似性先验,在Transformer的早期阶段逐步剔除属于背景的搜索区域候选,减轻计算负担并增强特征辨别性。


研究详细工作流程
  1. 输入数据的处理
    输入为一对图像,包括模板图像(目标初始外观)和搜索区域图像(当前帧中可能包含目标的区域)。作者将图像切分为小片块(patch),并通过线性投影(linear projection)将其转化为高维特征表示,同时加入可学习的位置嵌入(Position Embedding)。

  2. 特征与关系建模的联合过程
    模板和搜索区域的特征在投影后拼接为统一的特征序列,并输入到Vision Transformer的多个编码层中,编码层通过自注意力机制(Self-attention)实现模板和搜索区域间的信息互导。与跨注意力机制(Cross-attention)相比,自注意力机制具有更强的并行处理能力,提升了模型推理效率。

  3. 早期候选目标过滤模块
    基于Transformer自注意力机制的注意权重,计算目标模板中心位置与搜索区域每个候选部分的相似性,该过程被嵌入到某些编码层中。只保留具有最高相似性的top-k候选区域,其他候选区域被逐步过滤。对于被过滤的候选区域,网络将其填零以保证数据重构时的空间特征保持完整。

  4. 特征到目标预测的头部(Head)设计
    将搜索区域的剩余特征序列还原为二维空间特征图,并通过全卷积网络(Fully Convolutional Network, FCN)生成分类分数图、局部偏移图和归一化后的目标边界框尺寸。这些输出用于最终的目标定位。

  5. 损失函数的设计
    使用加权的Focal Loss处理目标分类,使用L1损失和广义IoU损失(Generalized IoU Loss)进行边界框回归。整体损失函数的权重参数依照已有工作进行调节。


实验与结果

  1. 实验平台与超参数
    研究团队在NVIDIA A100 GPU上使用PyTorch实现了OSTrack,并在RTX2080Ti上测试了推理速度。模型使用ViT-base(基于Mask Autoencoder预训练)作为骨干网络,并在COCO、LaSOT、TrackingNet和GOT-10k等跟踪数据集上进行训练,测试集包含多种通用和挑战性场景。

  2. 性能评估

    • 在GOT-10k跟踪测试集上,OSTrack-384在AO(Average Overlap)指标上达到73.7%,显著优于之前的最佳结果(SwinTrack的69.4%),并在一阶段场景的挑战下表现出良好的泛化能力。
    • 在LaSOT数据集上,OSTrack-384的AUC(Area Under Curve)达到了71.1%,超过了已有的各类主流方法,同时运行速度保持在58.1 FPS,处于优异的性能-速度权衡水平。
    • 在TrackingNet数据集上,OSTrack实现了83.9%的AUC,同样超越了其他方法。
  3. 模块性能验证
    引入的早期候选过滤模块显著提升了模型速度,同时对性能几乎没有负面影响。例如,OSTrack-384在引入模块后推理速度提升了40.3%,而关键指标例如AUC提升了0.1~0.4%。

  4. 与两流架构的对比

    • OSTrack对比之前的SOTA两流Transformer跟踪器(Stark、SwinTrack)的对齐版本显示出显著优势。例如,在相同条件下,OSTrack在GOT-10k上AO提升了1.5%~2.2%。
    • 实验进一步验证了单流框架在联合特征学习上的有效性,其提取的特征在目标与背景辨析上更具适应性。

研究价值与亮点

  1. 科学意义
    本研究提出的单流单阶段目标跟踪框架及其模块不仅提升了目标跟踪任务的准确性,同时证明了将特征提取与关系建模统一进行的可行性,为目标跟踪算法的设计提供了新思路。

  2. 应用价值
    通过同时兼顾性能与速度,OSTrack在实时跟踪应用中具有很大的潜力,如自动驾驶中的障碍物跟踪、监控系统中的目标识别等。

  3. 创新点

    • 首次在目标跟踪中引入单流单阶段框架,解决了两流结构中的目标感知问题。
    • 提出并验证了Early Candidate Elimination对于提高速度和稳定性的重要性。
  4. 扩展潜力
    由于框架设计的简洁性,OSTrack易于被迁移到其他计算机视觉任务中,例如视频目标检测与分割。


结论

OSTrack通过创新设计的单流单阶段框架和高效的早期候选过滤模块在速度和性能上均表现优异,其结果在多个数据集上均获得了新的SOTA成果。研究团队期望这一框架能吸引更多学者关注其潜力,并推动视觉跟踪技术的进一步突破。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com