分享自:

基于对象感知的无锚目标跟踪

期刊:eccv 2020DOI:10.1007/978-3-030-58589-1_46

《Ocean: Object-aware Anchor-free Tracking》研究报告

作者及研究机构

本文的主要作者包括 Zhipeng Zhang, Houwen Peng, Jianlong Fu, Bing Li 和 Weiming Hu,分别来自以下机构:
1. 中国科学院自动化研究所 (NLPR, CASIA)
2. 中国科学院大学人工智能学院 (AI School, UCAS)
3. 中国科学院脑科学与智能技术卓越中心 (CEBSIT)
4. 微软研究院 (Microsoft Research, Beijing, China)

本研究发表于 ECCV 2020 (European Conference on Computer Vision),并被 Springer Nature Switzerland AG 所收录,链接为:https://doi.org/10.1007978-3-030-58589-1_46


学术背景

本文属于 视觉目标跟踪 (Visual Tracking) 领域研究,目标跟踪的基本任务是给定视频中目标在第一帧的位置,预测目标在后续帧中的位置。近年来,Siamese 网络驱动的基于 Anchor 的目标跟踪方法在性能和准确性方面取得了显著的进展,但仍存在一定局限性,如跟踪鲁棒性不足,尤其在目标发生遮挡、较大尺度变化或光照变化时,容易出现漂移问题。

Anchor-based Siamese 跟踪方法的局限性主要在于其回归网络仅在 IOU ≥ 0.6 的正样本上进行训练,这导致无法很好地修正与目标物体低重叠度的锚框,从而加速了误差累积。本研究旨在解决这一问题,提出了一种全新的 Object-aware Anchor-free Tracking 网络 (Ocean),尝试通过 Anchor-free 机制直接回归目标位置,增强对目标和背景分类的鲁棒性。

研究目标包括:
1. 提出一种改进的目标感知特性(Object-aware Feature)以提高特征描述能力;
2. 引入 Anchor-free 机制克服 Anchor-based 方法的局限;
3. 通过设计创新性跟踪框架提升系统的实时性,并在多个数据集上验证方法的有效性。


研究工作流程

1. 网络设计与改进

研究中提出了一种 Object-aware Anchor-free 网络,整体架构分为两大模块:回归网络(Regression Network)和分类网络(Classification Network)。两者分别负责定位目标物体及区分前景和背景。回归网络基于像素级别预测框边界距离,分类网络通过特征对齐模块 (Feature Alignment Module) 提取目标感知特征。

具体工作流程细分为以下步骤:

步骤1:Anchor-free 回归网络设计
传统 Anchor-based 跟踪框架依赖于预定义的锚框,回归网络仅训练在正样本(IOU ≥ 0.6)上,缺乏修正误差的能力。本研究改为直接预测每个像素到目标四边界的距离,从而实现 Anchor-free 回归策略。训练时将目标真实框内的所有像素都作为正样本,有效扩大了正样本的覆盖范围,增强了网络在不同场景下的鲁棒性。

步骤2:目标感知分类网络与特征对齐
在传统 Siamese 跟踪框架中,分类网络通常仅基于规则区域(Regular-region Feature) 提取的特征进行分类。然而,这种方法对目标尺度变化的适应性较差。为此,研究提出了 特征对齐模块 (Feature Alignment Module),通过空间变换 (Spatial Transformation) 机制,将特征采样位置映射至预测的目标区域,从而生成目标感知特征(Object-aware Feature)。这一特征能捕捉目标物体的整体表征,有助于提高目标与背景的区分能力。

功能实现细节:
  • 特征对齐利用预测边框位置生成动态采样点,与二维卷积核结合实现特征重组;
  • 特征对齐模块计算目标感知特征 (Object-aware Feature) 和规则区域特征 (Regular-region Feature) 的分类得分,并融合为最终分类结果。

步骤3:跟踪框架的特征提取与组合
- 图像特征由 Siamese 架构中的 ResNet-50 主干网络提取,删除 ResNet 的最后阶段,使输出特征分辨率更高; - 引入扩张卷积机制 (Dilated Convolution) 以捕获多尺度特征,提取到的模板和搜索区域特征通过深度交叉关联操作(Depth-wise Cross Correlation)融合,生成最终目标定位结果。

2. 实验设计与性能验证

(1) 实验数据集与评价指标
研究选用了五个主流跟踪基准数据集: - VOT-2018 和 VOT-2019:以期望平均重叠度 (Expected Average Overlap, EAO) 为评价指标; - OTB-100:使用精度 (Precision, Prec.) 和面积曲线 (AUC); - GOT-10k:通过 AO (平均重叠) 和 SR (成功率) 进行评估; - LaSOT:测试跟踪算法在长视频序列中的稳定性,评价指标包括精度和成功率 (SUC)。

(2) 实验结果分析
在 VOT-2018 数据集,Ocean 的离线模型达到 EAO 0.467,较 SiamRPN++ 提升 5.3 个点。其鲁棒性指标相比其他方法提升显著,表明引入 Anchor-free 机制后能有效减缓误差累积问题。

在 VOT-2019 数据集,离线模型取得 EAO 0.327,显著优于 SiamRPN++ 的 0.292。得益于特征对齐模块,本方法在目标尺度变化场景下表现出更好的适应性。

在 GOT-10k 测试集,本研究的离线模型 AO 为 0.592,在线更新模型进一步达到 AO 0.611。相比 Atom 和 DiMP 等强基线模型,Ocean 展现出更优的性能。

在 OTB-100 和 LaSOT 数据集,Ocean 在精度和成功率等指标上同样取得竞争性结果,尤其在目标尺度、外观变化显著的条件下表现稳定。


主要研究结论

  1. 本研究提出的 Object-aware Anchor-free Tracking 框架较传统方法在复杂场景下的鲁棒性更强。
  2. 引入目标感知特征 (Object-aware Feature) 和特征对齐模块 (Feature Alignment Module) 显著提升了分类网络的特征表达能力。
  3. Ocean 在五个公开基准数据集上均取得了领先或竞争性的跟踪性能,验证了模型设计的有效性。

创新与研究亮点

  1. 创新性架构:基于 Anchor-free 机制的跟踪框架,彻底摆脱了预定义锚框的限制;
  2. 动态特征对齐:特征对齐模块通过自适应采样增强了对目标的全局描述;
  3. 实时性能:高效的设计保证跟踪模型在保持优异精度的前提下,能以 58 帧/秒的速度运行,满足实时性要求。

应用与未来展望

本研究在视频目标跟踪领域提出了重要的新方法,不仅在学术上提供了启发性创新,也为实际应用提供了强大的技术支持,如自动驾驶、监控和人机交互等场景。未来研究可以进一步将 Anchor-free 机制推广至视频目标检测、分割等在线任务中,以充分挖掘该模型的潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com