分享自:

利用局部和全局线索的视觉跟踪并行交互网络

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/tcsvt.2022.3212987

这篇文档属于类型a,是关于原始研究的学术报告。


研究背景与研究机构

本研究由 Yaozong Zheng、Bineng Zhong、Qihua Liang、Zhenjun Tang、Rongrong Ji 和 Xianxian Li 完成。主要研究人员分别来自 Guangxi Normal University 的 Guangxi Key Laboratory of Multi-source Information Mining and Security,Huaqiao University 的 Computer Science and Technology 部门,以及 Xiamen University 的 Media Analytics and Computing Laboratory。研究成果发表于《IEEE Transactions on Circuits and Systems for Video Technology》,卷33,第4期,于2023年4月公开发表。

学术背景

本研究聚焦于视觉目标跟踪(Visual Object Tracking, VOT),这是计算机视觉领域的一个重要分支。视觉目标跟踪的目标是基于视频序列中第一帧目标的初始状态,推测该目标在后续帧中的状态。然而,由于目标的外观变化、相似物体的干扰、部分遮挡等因素,此任务具有很大的挑战性。

近些年,卷积神经网络(CNN)成为视觉目标跟踪主流模型,其本地建模能力和计算效率表现出色。然而基于CNN的模型受到感受野限制,难以捕获丰富的全局上下文信息。与此同时,基于Transformer的模型因其多头自注意力机制(Multi-head Attention Mechanism)在提取全局依赖性和抗干扰方面表现优异,但其局部关系建模能力较弱,无法很好地保留目标的精细特征。基于此背景,研究者提出了一种结合CNN和Transformer能力的策略,希望通过整合目标与背景的本地和全局信息,提升对象辨别能力。

研究目标

本研究旨在设计一种新型的Siamese Parallel Interaction Network(SiamPIN),希望结合CNN与Transformer的优势,通过在目标和背景之间挖掘本地和全局信息,提高视觉目标跟踪的鲁棒性与性能。具体目标包括:提升在基准数据集上的跟踪表现、实现实时跟踪速度、设计高效的目标辨别网络架构。

研究流程与方法

研究总体架构包含以下关键模块:特征提取网络(backbone)、并行交互网络(Parallel Interaction Network)、解耦式预测头(Decoupled Prediction Head)。

1. 特征提取网络

SiamPIN使用修改后的ResNet50作为基础网络(backbone),将标准ResNet50的最后一层和全连接层移除。输入特征提取网络的模板图像大小为128×128像素,搜索区域大小为256×256像素。经过1×1卷积和BatchNorm层降维后,输出特征张量尺寸为c × h × w。

2. 并行交互网络

并行交互网络是研究的核心创新点,结合Transformer与CNN的能力,分为Transformer分支和CNN分支。它由若干Trans-Conv单元堆叠组成,允许全局与本地信息的双向交互。

(1) Transformer分支

Transformer分支通过全局聚合块(Global Aggregation Block, GAB)基于多头注意力机制(Multi-head Attention)建模全局关系。首先,将本地特征序列(Local Features Vector)与全局特征序列通过位置编码进行基准化,然后使用点积运算计算特征间的相似性矩阵,实现全局上下文信息的感知。

(2) CNN分支

CNN分支通过局部处理块(Local Process Block, LPB)提取局部特征。LPB使用深度可分离卷积(Depthwise Convolution)和1×1卷积来增强局部感知能力,同时吸收来自GAB的全局上下文信息。研究中特别设计了简单高效的特征融合操作,通过特征通道拼接和降维处理增强特征的一致性。

3. 交互过程与预测头

交互网络通过将GAB与LPB交替连接,实现全局与本地信息的多次迭代交互,形成完整的Trans-Conv单元。解耦式预测头(Decoupled Head)分为分类分支和目标定位分支,分别连入Transformer和CNN分支。分类分支通过全局注意力聚焦目标的显著区域,定位分支则聚焦于目标的边界信息,进一步提升目标跟踪的辨别能力。

4. 数据与训练

本研究采用多种数据集训练模型,包括GOT-10K、TrackingNet、COCO和LaSOT。网络训练历时500个周期,每周期使用60,000对图像数据,批量大小为12,基础学习率为1×10^-4,并在第400个周期后学习率以0.1倍速率下降。

研究结果

1. 基准数据集表现

在6个主流基准数据集GOT-10K、TrackingNet、LaSOT、OTB2015、UAV123和VOT2019上,SiamPIN展示了卓越的性能:
- 在GOT-10K上,SiamPIN取得了70.2%的成功得分(AUC),领先于其他基于Transformer的模型(如STARK和TrTr)。 - 在TrackingNet上,SiamPIN的成功得分达到了81.4%,在多个指标上超越了高级模型SiamRCNN。 - 在LaSOT上,SiamPIN获得了65.4%的AUC,与Transformer模型TrTr相比优势明显。

2. 对比实验与消融实验

消融实验验证了GAB和LPB的交互设计以及解耦预测头的有效性。研究表明,与单独使用GAB或LPB相比,基于GAB-LPB双向交互架构的方法在跟踪性与鲁棒性上更具优势。研究特别关注网络层数、特征交互方法及损失函数权重对跟踪性能的影响,最终选用4层GAB-LPB交互模块作为最佳配置。

3. 可视化结果

研究通过特征图对比显示,LPB模块专注于目标的局部区域(如目标头部点),而GAB关注广泛区域。SiamPIN特征图对目标区域和背景干扰物具有更高的疏离性,证明其可有效过滤背景干扰。

研究结论

Siamese Parallel Interaction Network通过结合CNN和Transformer的优势,有效解决了局部特征提取和全局上下文建模之间的权衡问题。并行交互网络的设计为目标跟踪领域提供了全新的架构思路。同时,解耦预测头提升了模型对分类与定位任务的适应能力。模型具有实时运行速度,在复杂的目标跟踪场景中表现出色。

研究亮点

  1. 提出了创新性并行交互网络,实现全局与局部信息的融合。
  2. 系统设计了解耦预测头,有针对性地提升了分类与定位性能。
  3. 在多项基准数据集上超越了现有最先进的跟踪方法。

本研究为计算机视觉领域提供了一种高效、鲁棒的目标跟踪方法,其双向交互网络与模块化设计为后续研究提供了重要启示。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com