该研究的主要作者包括 Botao Ye、Hong Chang (通讯作者)、Bingpeng Ma、Shiguang Shan 和 Xilin Chen。作者隶属于以下机构:
研究发表于 ECCV 2022,具体文章信息为:LNCS 13682, pp. 341–357,Springer出版社出版。
该研究属于计算机视觉领域,研究的主要方向是基于目标的视觉跟踪(Visual Object Tracking, VOT)。目标跟踪的任务是根据初始给定目标外观,在视频的每一帧中对目标进行定位。然而,由于目标和背景的动态变化与复杂性,该任务极具挑战性。现有的主流跟踪框架普遍采用的是“两流两阶段”(Two-stream, Two-stage)的结构,即分别提取模板(Template)和搜索区域(Search Region)的特征,然后进行特征关系建模。然而,这种分离结构存在以下几个缺陷: 1. 提取的特征缺乏对目标的感知,因而在目标与背景的辨别性上受到限制。 2. 由于特征提取和关系建模的分离,效率和性能之间存在矛盾,部分现有方法模型参数过多,导致速度受限。
针对以上问题,该研究提出了一种全新的单流单阶段目标跟踪框架(One-stream, One-stage Tracking Framework),名为 OSTrack。本文的目的在于通过联合特征学习与关系建模提升目标跟踪的性能,并提出一种新颖的候选目标早期过滤模块(Early Candidate Elimination Module),以提高推理效率。
OSTrack通过单流单阶段方法实现特征提取和关系建模的统一化,与传统的“两流两阶段”架构相比显得更加紧凑与高效。系统主要包括以下核心模块: 1. 联合特征提取与关系建模模型:基于Vision Transformer(ViT)构建,首创地将模板图像与搜索区域拼接后输入同一Transformer网络中,从而实现两者信息的交互与目标导向的动态特征提取。 2. 早期目标候选过滤模块:通过基于ViT计算的相似性先验,在Transformer的早期阶段逐步剔除属于背景的搜索区域候选,减轻计算负担并增强特征辨别性。
输入数据的处理:
输入为一对图像,包括模板图像(目标初始外观)和搜索区域图像(当前帧中可能包含目标的区域)。作者将图像切分为小片块(patch),并通过线性投影(linear projection)将其转化为高维特征表示,同时加入可学习的位置嵌入(Position Embedding)。
特征与关系建模的联合过程:
模板和搜索区域的特征在投影后拼接为统一的特征序列,并输入到Vision Transformer的多个编码层中,编码层通过自注意力机制(Self-attention)实现模板和搜索区域间的信息互导。与跨注意力机制(Cross-attention)相比,自注意力机制具有更强的并行处理能力,提升了模型推理效率。
早期候选目标过滤模块:
基于Transformer自注意力机制的注意权重,计算目标模板中心位置与搜索区域每个候选部分的相似性,该过程被嵌入到某些编码层中。只保留具有最高相似性的top-k候选区域,其他候选区域被逐步过滤。对于被过滤的候选区域,网络将其填零以保证数据重构时的空间特征保持完整。
特征到目标预测的头部(Head)设计:
将搜索区域的剩余特征序列还原为二维空间特征图,并通过全卷积网络(Fully Convolutional Network, FCN)生成分类分数图、局部偏移图和归一化后的目标边界框尺寸。这些输出用于最终的目标定位。
损失函数的设计:
使用加权的Focal Loss处理目标分类,使用L1损失和广义IoU损失(Generalized IoU Loss)进行边界框回归。整体损失函数的权重参数依照已有工作进行调节。
实验平台与超参数:
研究团队在NVIDIA A100 GPU上使用PyTorch实现了OSTrack,并在RTX2080Ti上测试了推理速度。模型使用ViT-base(基于Mask Autoencoder预训练)作为骨干网络,并在COCO、LaSOT、TrackingNet和GOT-10k等跟踪数据集上进行训练,测试集包含多种通用和挑战性场景。
性能评估:
模块性能验证:
引入的早期候选过滤模块显著提升了模型速度,同时对性能几乎没有负面影响。例如,OSTrack-384在引入模块后推理速度提升了40.3%,而关键指标例如AUC提升了0.1~0.4%。
与两流架构的对比:
科学意义:
本研究提出的单流单阶段目标跟踪框架及其模块不仅提升了目标跟踪任务的准确性,同时证明了将特征提取与关系建模统一进行的可行性,为目标跟踪算法的设计提供了新思路。
应用价值:
通过同时兼顾性能与速度,OSTrack在实时跟踪应用中具有很大的潜力,如自动驾驶中的障碍物跟踪、监控系统中的目标识别等。
创新点:
扩展潜力:
由于框架设计的简洁性,OSTrack易于被迁移到其他计算机视觉任务中,例如视频目标检测与分割。
OSTrack通过创新设计的单流单阶段框架和高效的早期候选过滤模块在速度和性能上均表现优异,其结果在多个数据集上均获得了新的SOTA成果。研究团队期望这一框架能吸引更多学者关注其潜力,并推动视觉跟踪技术的进一步突破。