论文题为《Fully-Convolutional Siamese Networks for Object Tracking》,由Luca Bertinetto、Jack Valmadre、João F. Henriques、Andrea Vedaldi和Philip H.S. Torr撰写,作者来自于英国牛津大学的工程科学系。该研究发表于ECCV 2016 Workshops,通过Springer International Publishing出版。
本研究主要聚焦于计算机视觉领域中的目标追踪问题,具体而言是在未知对象的情况下,利用视频数据中的初始帧目标框,预测目标在后续帧中的位置。传统方法主要依赖在线学习模型建立目标外观,但这种方法由于训练数据仅限于当前视频限制了模型的复杂性和表现力。深度学习尤其是卷积神经网络近年来在计算机视觉中取得了显著成果,于是该研究尝试将深度卷积网络应用于目标追踪。研究的主要目标是开发一种基于Siamese(孪生)全卷积网络的高性能目标追踪算法,该算法既能在实时速率下运行,又在实际基准测试中能取得先进的表现。
传统的目标追踪方法依赖于在线学习目标外观模型,从视频中动态提取样本作为训练数据,典型方法包括TLD、STRUCK和KCF。这类方法由于缺乏大规模的监督数据,所学模型通常较为简单。深度卷积网络凭借其对大规模监督数据的学习能力,在目标检测和类别识别等领域表现抢眼,但用于目标追踪的传统思路(如在追踪过程中进行SGD优化)因实时性受到限制。
本研究意在提出一种不同的方法:通过离线阶段训练一个Siamese网络来解决广义的相似性学习问题,并在在线阶段通过简单评估该网络函数实现目标追踪。研究的核心目标是展示,这种方法可以在现代追踪基准中的多种场景下实现非常具有竞争力的性能,同时大大超越实时帧率要求。
研究采用了一种全新的Siamese全卷积网络架构,并在多个方面进行了创新和优化:
研究采用了一种全卷积的Siamese架构,它对候选图像(search image)具有完全卷积属性(fully-convolutional)。Siamese网络由两个共享权重的分支组成,用于分别处理标准参考图像(exemplar image z)和候选图像(candidate image x)。候选图像可被设计为搜索窗口,网络的输出是一个分数图(score map),每个点表示相应子窗口的相似性分数。相似性函数公式为:
f(z, x) = ϕ(z) ∗ ϕ(x) + b1
其中ϕ是卷积嵌入函数,*表示交叉相关操作,b1为常数偏置。
训练目标:优化函数通过SGD在ILSVRC15(ImageNet Video Dataset)上进行离线训练。ILSVRC15包含30类对象,共计4500段视频和超过一百万个标注帧,超过了传统数据集(如OTB、VOT、ALOV)的规模。研究强调,该数据集的多样性避免了过度拟合到特定场景。
数据处理:从视频中提取训练对,包括127x127尺寸的样本图像和255x255尺寸的搜索图像。目标标注框通过比例缩放和增加上下文进行标准化,以确保模型泛化能力。
损失函数:采用对数损失(logistic loss)来处理正负样例对,通过分数图上的位置标签优化位置预测精度。
网络架构:网络设计基于AlexNet的卷积部分,包含五层卷积操作,每层包括ReLU激活函数,避免使用padding以保持网络全卷积性质。
在线阶段的追踪算法极为简洁:从首帧中提取对象外观特征(embedding ϕ(z)),然后将后续每帧的视频子窗口与之交叉相关以获得相似性分数图。物体的位置通过分数图的最大值位置确定,同时考虑了简单的时间约束与缩放变化的处理。
实验使用多个权威基准验证了该方法的有效性:
OTB-13:研究在该基准上展现了优异表现,曲线下的成功率积分优于多数同类实时算法,包括Staple等。
VOT-14与VOT-15:与最佳参赛者比较,该方法在多个性能指标(如精确度、失效次数等)上具有竞争优势。尽管模型简单,本研究是少数支持实时运行(约86帧每秒)的方法之一。
训练数据规模的影响:增加训练数据量显著提高了模型性能,表明更大规模的视频数据集可能进一步提升表现。
Siamese全卷积网络为目标追踪开创了全新思路,通过降低在线操作复杂度、充分利用离线学习特性,使得系统兼顾高效性与高性能。未来的研究可进一步结合在线学习策略或更多视觉线索,如边框回归、光流信息等,从而达到更高的表现水平。