利用局部和全局线索的视觉跟踪并行交互网络

分享自：
利用局部和全局线索的视觉跟踪并行交互网络

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/tcsvt.2022.3212987
这篇文档属于类型a，是关于原始研究的学术报告。
研究背景与研究机构本研究由 Yaozong Zheng、Bineng Zhong、Qihua Liang、Zhenjun Tang、Rongrong Ji 和 Xianxian Li 完成。主要研究人员分别来自 Guangxi Normal University 的 Guangxi Key Laboratory of Multi-source Information Mining and Security，Huaqiao University 的 Computer Science and Technology 部门，以及 Xiamen University 的 Media Analytics and Computing Laboratory。研究成果发表于《IEEE Transactions on Circuits and Systems for Video Technology》，卷33，第4期，于2023年4月公开发表。
学术背景本研究聚焦于视觉目标跟踪（Visual Object Tracking, VOT），这是计算机视觉领域的一个重要分支。视觉目标跟踪的目标是基于视频序列中第一帧目标的初始状态，推测该目标在后续帧中的状态。然而，由于目标的外观变化、相似物体的干扰、部分遮挡等因素，此任务具有很大的挑战性。
近些年，卷积神经网络（CNN）成为视觉目标跟踪主流模型，其本地建模能力和计算效率表现出色。然而基于CNN的模型受到感受野限制，难以捕获丰富的全局上下文信息。与此同时，基于Transformer的模型因其多头自注意力机制（Multi-head Attention Mechanism）在提取全局依赖性和抗干扰方面表现优异，但其局部关系建模能力较弱，无法很好地保留目标的精细特征。基于此背景，研究者提出了一种结合CNN和Transformer能力的策略，希望通过整合目标与背景的本地和全局信息，提升对象辨别能力。
研究目标本研究旨在设计一种新型的Siamese Parallel Interaction Network（SiamPIN），希望结合CNN与Transformer的优势，通过在目标和背景之间挖掘本地和全局信息，提高视觉目标跟踪的鲁棒性与性能。具体目标包括：提升在基准数据集上的跟踪表现、实现实时跟踪速度、设计高效的目标辨别网络架构。
研究流程与方法研究总体架构包含以下关键模块：特征提取网络（backbone）、并行交互网络（Parallel Interaction Network）、解耦式预测头（Decoupled Prediction Head）。
1. 特征提取网络SiamPIN使用修改后的ResNet50作为基础网络（backbone），将标准ResNet50的最后一层和全连接层移除。输入特征提取网络的模板图像大小为128×128像素，搜索区域大小为256×256像素。经过1×1卷积和BatchNorm层降维后，输出特征张量尺寸为c × h × w。
2. 并行交互网络并行交互网络是研究的核心创新点，结合Transformer与CNN的能力，分为Transformer分支和CNN分支。它由若干Trans-Conv单元堆叠组成，允许全局与本地信息的双向交互。
(1) Transformer分支Transformer分支通过全局聚合块（Global Aggregation Block, GAB）基于多头注意力机制（Multi-head Attention）建模全局关系。首先，将本地特征序列（Local Features Vector）与全局特征序列通过位置编码进行基准化，然后使用点积运算计算特征间的相似性矩阵，实现全局上下文信息的感知。
(2) CNN分支CNN分支通过局部处理块（Local Process Block, LPB）提取局部特征。LPB使用深度可分离卷积（Depthwise Convolution）和1×1卷积来增强局部感知能力，同时吸收来自GAB的全局上下文信息。研究中特别设计了简单高效的特征融合操作，通过特征通道拼接和降维处理增强特征的一致性。
3. 交互过程与预测头交互网络通过将GAB与LPB交替连接，实现全局与本地信息的多次迭代交互，形成完整的Trans-Conv单元。解耦式预测头（Decoupled Head）分为分类分支和目标定位分支，分别连入Transformer和CNN分支。分类分支通过全局注意力聚焦目标的显著区域，定位分支则聚焦于目标的边界信息，进一步提升目标跟踪的辨别能力。
4. 数据与训练本研究采用多种数据集训练模型，包括GOT-10K、TrackingNet、COCO和LaSOT。网络训练历时500个周期，每周期使用60,000对图像数据，批量大小为12，基础学习率为1×10^-4，并在第400个周期后学习率以0.1倍速率下降。
研究结果1. 基准数据集表现在6个主流基准数据集GOT-10K、TrackingNet、LaSOT、OTB2015、UAV123和VOT2019上，SiamPIN展示了卓越的性能：
 - 在GOT-10K上，SiamPIN取得了70.2%的成功得分（AUC），领先于其他基于Transformer的模型（如STARK和TrTr）。 - 在TrackingNet上，SiamPIN的成功得分达到了81.4%，在多个指标上超越了高级模型SiamRCNN。 - 在LaSOT上，SiamPIN获得了65.4%的AUC，与Transformer模型TrTr相比优势明显。
2. 对比实验与消融实验消融实验验证了GAB和LPB的交互设计以及解耦预测头的有效性。研究表明，与单独使用GAB或LPB相比，基于GAB-LPB双向交互架构的方法在跟踪性与鲁棒性上更具优势。研究特别关注网络层数、特征交互方法及损失函数权重对跟踪性能的影响，最终选用4层GAB-LPB交互模块作为最佳配置。
3. 可视化结果研究通过特征图对比显示，LPB模块专注于目标的局部区域（如目标头部点），而GAB关注广泛区域。SiamPIN特征图对目标区域和背景干扰物具有更高的疏离性，证明其可有效过滤背景干扰。
研究结论Siamese Parallel Interaction Network通过结合CNN和Transformer的优势，有效解决了局部特征提取和全局上下文建模之间的权衡问题。并行交互网络的设计为目标跟踪领域提供了全新的架构思路。同时，解耦预测头提升了模型对分类与定位任务的适应能力。模型具有实时运行速度，在复杂的目标跟踪场景中表现出色。
研究亮点提出了创新性并行交互网络，实现全局与局部信息的融合。
系统设计了解耦预测头，有针对性地提升了分类与定位性能。
在多项基准数据集上超越了现有最先进的跟踪方法。
本研究为计算机视觉领域提供了一种高效、鲁棒的目标跟踪方法，其双向交互网络与模块化设计为后续研究提供了重要启示。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问