本文由Xiao Wang(Anhui University),Zhe Chen(The University of Sydney),Bo Jiang(Anhui University),Jin Tang(Anhui University, Center for Cognitive Computing Research),Bin Luo(Anhui University),以及Dacheng Tao(JD Explore Academy, The University of Sydney)等作者联名撰写。文章发表在IEEE Transactions on Image Processing, vol. 31, 2022期刊上,并于2022年9月27日正式出版。
视觉目标跟踪一直是计算机视觉领域的核心课题,广泛应用于视频分析、无人驾驶、机器人导航和监控等领域。传统的视觉跟踪技术大多采用贪心搜索策略(greedy search)来确定目标位置,即在每一帧中选择响应分数最高的候选区域作为目标跟踪结果。然而,在复杂的跟踪场景(例如目标快速运动、大量遮挡)下,该策略存在明显不足。这些局限性在于:若模型在某一帧中产生偏移,这种偏差可能会累积并影响后续帧的预测准确性。
受图像描述生成中束搜索算法(beam search)的启发,本文提出了一种新颖的基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的视觉跟踪解决方案,称为BeamTracking,通过维护多条跟踪轨迹并选取具有较少累积误差的轨迹来提升跟踪精度。
在本文的研究中,作者设计了一套完整的多阶段实验与算法开发流程,主要包括以下步骤:
作者将视觉目标跟踪问题形式化为一个样本选择问题(sample selection problem)。每一帧图像生成若干候选状态,包括目标特征、候选区域内的特征和该候选区域的响应分数。本文设计了一种双向门控循环单元(Bi-GRU)网络,用于对这些信息进行编码,将其整合成统一的状态表示。
具体过程包括: - 从联合的局部搜索与全局搜索结果中提取候选区域(proposals)。 - 使用卷积神经网络提取候选区域的CNN特征,同时结合初始化帧中标定的目标特征。 - 利用响应分数(confidence score)和特征构建状态表示。
本文引入基于强化学习的多智能体决策框架,每个智能体负责从候选状态中选出一个作为当前帧的跟踪结果。为了实现多智能体协同,每个智能体在决策时会参考前一个智能体的动作。
20多个候选状态通过Bi-GRU网络编码为统一的特征表示,并输入给多个策略网络(policy networks)。这些策略网络采用连续动作空间来选择合适的候选区域,最终通过整合多智能体的选择结果,实现多轨迹跟踪。
采用基于概率近端优化算法(Proximal Policy Optimization, PPO)的强化学习方法对策略网络进行优化: - 定义状态值函数和动作值函数。 - 设置奖励函数:奖励函数以跟踪结果和真实目标之间的IOU (交并比) 为标准,鼓励选择更接近目标的候选区域。 - 利用熵正则化(entropy regularization)防止策略过于确定性,同时在训练中通过累计折扣奖励优化策略网络。
作者利用多个数据集进行实验,包括OTB2015、TC128、UAV123、LaSOT、GOT-10k、VOT2018-LT和VOT2019-LT,这些数据集涵盖了短期任务和长期任务的视频序列。评估指标主要包括:
以下是部分实验结果摘要:
消融实验验证了本文提出的各主要模块与设计的有效性: 1. 引入全局搜索模块(TANet)相较于仅采用局部搜索提升了精度和鲁棒性。 2. 使用MAB(Multi-Agent Beam Search)方法较Naïve Beam Search进一步提升了跟踪效果。 3. 实验还证明了动作间的顺序依赖与归一化方案优化了多轨迹的探索能力。
本文提出的基于多智能体强化学习的束搜索策略为视觉目标跟踪提供了一种全新的视角与解决方案,其科学价值和应用意义如下:
科学价值:
应用价值:
尽管本文算法在多数场景下取得了优越表现,但在以下领域仍有待提升: 1. 面对小目标和密集相似物体时,算法易受干扰。未来工作将尝试引入图匹配技术进一步提升准确性。 2. 自动化超参数优化仍是值得研究的课题,同时结合动态参数调整技术会进一步提高算法实用性。
通过本研究的创新性方法与实验验证,本文为视觉目标跟踪领域开辟了新途径。未来工作将致力于拓展方案的适用范围并提升运行效率,以应对更复杂的实际应用场景。