分享自:

基于自适应部分挖掘的鲁棒视觉跟踪

期刊:IEEE Transactions on Pattern Analysis and Machine IntelligenceDOI:10.1109/TPAMI.2023.3275034

这篇文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:


研究作者与机构
本文的主要作者包括Yinchao Ma、Jianfeng He、Dawei Yang、Tianzhu Zhang(IEEE会员)和Feng Wu(IEEE Fellow),他们均来自中国科学技术大学信息科学与技术学院。该研究于2023年10月发表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)期刊上,卷号为45,期号为10,页码为11443-11457。

学术背景
视觉跟踪(Visual Tracking)是计算机视觉领域的一个基础研究方向,旨在自动估计视频序列中目标物体的状态。尽管近年来取得了显著进展,但在面对目标外观剧烈变化(如变形、部分遮挡、运动模糊等)时,视觉跟踪仍面临诸多挑战。现有的跟踪器通常通过将目标物体分割为规则块来处理外观变化,但这种方式过于粗糙,难以精确对齐目标部分。此外,固定的部分检测器难以适应不同类别和变形的目标。为了解决这些问题,本文提出了一种基于Transformer架构的自适应部分挖掘跟踪器(Adaptive Part Mining Tracker, APMT),旨在通过自适应部分挖掘实现鲁棒的视觉跟踪。

研究流程
1. 研究目标与框架
本研究的目标是开发一种能够自适应挖掘目标部分的跟踪器,以应对目标外观的剧烈变化。APMT框架包括三个主要模块:目标表示编码器(Object Representation Encoder)、自适应部分挖掘解码器(Adaptive Part Mining Decoder)和目标状态估计解码器(Object State Estimation Decoder)。
目标表示编码器通过区分目标物体与背景区域来学习目标表示;自适应部分挖掘解码器通过引入多个部分原型(Part Prototypes)和交叉注意力机制(Cross-Attention Mechanisms)动态捕捉目标部分;目标状态估计解码器则提出了两种新策略,分别用于处理外观变化和干扰物(Distractors)。

  1. 目标表示编码器
    目标表示编码器基于Transformer架构,通过全局交互增强目标模板与搜索区域特征。具体而言,该模块首先将目标模板和搜索区域特征展平,并与一个可学习的对象原型(Object Prototype)拼接,形成一个特征序列。随后,通过多层自注意力机制(Multi-Head Self-Attention, MHSA)和全连接网络(Feed-Forward Network, FFN)进行特征增强,最终生成目标表示和增强的搜索区域特征。为了抑制背景区域,该模块还引入了稀疏损失(Sparse Loss)来指导对象激活图(Object Activation Map)的学习。

  2. 自适应部分挖掘解码器
    该模块通过引入多个部分原型作为查询(Queries),利用交叉注意力机制更新这些原型,并生成部分滤波器(Part Filters)。部分滤波器能够根据目标物体的不同类别和变形动态捕捉部分特征。具体而言,部分原型与搜索区域特征进行交互,生成部分激活图(Part Activation Maps),并进一步提取部分特征。为了确保部分特征的多样性,该模块还引入了多样性损失(Diversity Loss)。

  3. 目标状态估计解码器
    该模块提出了两种新策略:基于点的回归策略(Point-Based Regression Strategy)和干扰物处理策略(Distractor Handling Strategy)。基于点的回归策略利用部分特征回归一组关键点,并通过这些关键点的均值和标准差推导目标边界框。干扰物处理策略则通过一个小型感知网络(Perception Network)判断目标跟踪状态,避免干扰物导致的混淆。

  4. 实验与训练
    实验在七个视觉跟踪基准数据集上进行,包括GOT-10K、LaSOT、TrackingNet、NFS、UAV123、VOT2022和FaceTracking。训练过程采用了AdamW优化器,并在多个数据集上进行了数据增强(如平移、水平翻转、亮度抖动等)。训练损失包括边界框回归损失(L1损失和广义IoU损失)、稀疏损失和多样性损失。

主要结果
1. 性能对比
APMT在多个基准数据集上均取得了显著优于现有跟踪器的性能。例如,在GOT-10K数据集上,APMT-ResNet50的AO(Average Overlap)达到了70.1%,超过了TransT和Stark等现有方法。在LaSOT数据集上,APMT-SwinB的AUC(Area Under Curve)达到了69.5%,显著优于现有方法。

  1. 部分挖掘效果
    自适应部分挖掘解码器能够根据目标物体的不同类别和变形动态捕捉部分特征,避免了传统方法中固定部分分割导致的误对齐问题。实验结果表明,该模块在处理目标外观剧烈变化时表现出色。

  2. 干扰物处理效果
    干扰物处理策略能够有效避免目标跟踪框漂移到干扰物上,显著提高了跟踪器的鲁棒性。在VOT2022数据集上,APMT-SwinB的EAO(Expected Average Overlap)达到了0.560,优于现有方法。

结论
本文提出了一种基于Transformer架构的自适应部分挖掘跟踪器(APMT),通过自适应部分挖掘和干扰物处理策略,显著提高了视觉跟踪的鲁棒性和准确性。实验结果表明,APMT在多个基准数据集上均取得了最优性能,特别是在处理目标外观剧烈变化和干扰物场景时表现出色。该研究为视觉跟踪领域提供了一种新的解决方案,具有重要的科学价值和实际应用价值。

研究亮点
1. 提出了自适应部分挖掘解码器,能够动态捕捉目标部分,适应不同类别和变形的目标。
2. 设计了基于点的回归策略和干扰物处理策略,显著提高了目标状态估计的准确性和鲁棒性。
3. 在多个基准数据集上均取得了最优性能,特别是在处理目标外观剧烈变化和干扰物场景时表现出色。

其他有价值的内容
本文还详细分析了不同模块对跟踪性能的影响,并通过可视化展示了对象激活图和部分激活图的效果,进一步验证了所提出方法的有效性。


以上报告全面介绍了该研究的主要内容、方法、结果和意义,适合向其他研究者传达该研究的核心价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com