安徽大学计算机科学与技术学院及人工智能学院的Lu Andong, Li Chenglong, Zhao Jiacong, Tang Jin, Luo Bin 团队的研究论文《Modality-missing RGBT Tracking: Invertible Prompt Learning and High-quality Benchmarks》,于2024年12月在线发表在 international journal of computer vision 期刊上。本报告旨在向研究人员介绍这项针对模态缺失RGBT追踪问题提出的创新解决方案及相关高质量基准数据集。
本研究立足于计算机视觉领域,特别是多模态目标追踪(multi-modality object tracking)这一重要方向。近年来,得益于Transformer等强大神经网络架构以及大规模RGB-Thermal (RGBT) 数据集的出现,RGBT追踪取得了显著进展。现有方法主要通过有效融合可见光(RGB)和热红外(Thermal Infrared, TIR)模态的信息,在模态完整(modality-complete)的场景下表现出色。然而,在实际应用场景中,由于热传感器自校准、数据传输错误等多种因素,可能导致某一模态(RGB或TIR)的数据在连续或随机帧中丢失,即面临“模态缺失”(modality-missing)的挑战。现有追踪器严重依赖完整的双模态输入,当出现模态缺失时性能会急剧下降。该研究团队通过实验评估了多种先进的RGBT追踪器在使用“零填充”、“复制可用模态”和“使用生成对抗网络(GAN)生成”三种常见数据补偿策略处理模态缺失数据时的表现,结果均显示性能存在严重退化。因此,如何实现鲁棒的模态缺失RGBT追踪(modality-missing RGBT tracking)成为一个亟待解决的关键研究课题。
为实现这一目标,本研究提出了一个系统的解决方案,其工作流程主要包括以下几个部分:首先,构建一个鲁棒的RGBT追踪基线模型(baseline model);其次,设计并实现一种新颖的可逆提示学习(Invertible Prompt Learning, IPL)方法;最后,创建多个高质量的模态缺失RGBT追踪基准数据集,为领域提供全面的评估平台。
在第一部分,即基线模型构建中,研究团队深入探讨了如何在模态缺失场景下设计更鲁棒的RGBT追踪模型。他们验证了不同特征提取器架构和融合单元(fusion unit)的选择对模型性能的影响。研究对比了三种主流特征提取器:共享型(shared)、独享型(specific)和共享-独享混合型(shared-specific)。通过在RGbT234和RGbT234-miss数据集上的评估,发现共享-独享混合型架构在模态完整和模态缺失场景下均展现出优势。因此,最终基线模型采用了该架构作为特征提取骨干网络。该骨干网络由交替堆叠的模态共享(modality-shared)和模态独享(modality-specific)Transformer块构成,并引入了针对每个模态的可学习全局令牌(global tokens),以从训练数据中捕获模态特定的不变信息,为缺失场景提供先验。在融合单元方面,研究对比了求和(sum)、通道拼接(concat)和基于Transformer的融合三种策略。实验结果表明,简单的通道拼接方法在两种场景下均能取得最佳性能,而Transformer融合在模态缺失场景下表现最差。基于这些发现,团队确定了一个由共享-独享混合Transformer骨干网络和通道拼接融合策略组成的鲁棒RGBT追踪基线模型。
本研究的核心创新是第二部分提出的可逆提示学习方法。该方法的核心理念是:当发生模态缺失时,利用当前帧中可用的模态信息,通过一个学习到的提示生成器(prompter),生成适用于原追踪模型的、代表缺失模态内容的“提示”(prompts),从而“提示”或引导模型适应缺失场景,而不是简单地对缺失数据进行低质量填充。然而,可用模态与缺失模态之间存在跨模态鸿沟(cross-modality gap),直接在它们之间进行特征生成容易导致语义失真(semantic distortion)和信息丢失(information loss)。为解决此问题,团队设计了一个可逆提示器(Invertible Prompter, IPer)。其关键创新在于引入了“可逆性”约束:它不仅要从可用模态特征正向生成缺失模态的提示,还要求能够从生成的提示中完全重建出原始的可用模态特征。这种双向映射机制确保了生成过程能够最大程度地保留内容信息,避免不可逆的失真。IPer被嵌入到特征提取网络的每一层中,以分层的方式逐步生成高质量提示,降低了单层生成任务的难度。为了进一步缩小生成的提示特征与下游追踪任务之间的差距,研究还引入了任务对齐损失(Task Alignment Loss),它通过对比在模态完整和提示生成两种情况下追踪头的预测输出来优化提示的判别性。整个模型的训练分为两个阶段:第一阶段使用完整的双模态数据训练基线追踪模型;第二阶段冻结基线模型参数,仅使用同一数据集训练IPer。在第二阶段,通过输入一个模态的特征,用另一个模态的特征监督IPer的输出,并结合任务对齐损失和双向映射损失(Bidirectional Mapping Loss)进行优化。在推理阶段,只有当检测到模态缺失时,相应的IPer才会被激活,生成提示并与可用模态的特征结合后送入追踪头;在模态完整场景下,IPer不工作,模型退化为基线模型,避免了不必要的计算开销。
由于真实世界中模态缺失因素复杂多样,难以捕获所有类型的缺失数据,因此本研究的第三部分工作是构建高质量的模拟基准数据集。研究团队提出了一个分层次的组合方案来模拟可能的模态缺失场景。首先定义了三种基础缺失模式(base missing patterns):长时间缺失(Long-time Missing)、切换缺失(Switch Missing)和随机缺失(Random Missing)。然后,将前两种基础模式分别与随机缺失组合,形成了两种混合模式:长时间混合缺失(Long-time Mixed Missing)和切换混合缺失(Switch Mixed Missing)。此外,还引入了三种缺失率(30%, 60%, 90%)来反映缺失帧数的影响。最终,通过将这五种缺失模式与三种缺失率相结合,可以生成15种不同的混合缺失模式。基于此方法,研究团队选取了三个具有代表性的模态完整RGBT追踪数据集:RGBT234、LasHeR(测试集)和VTUAV(测试集),构造了三个对应的模态缺失基准数据集:RGBT234-miss, LasHeR245-miss, 和 VTUAV176-miss。这些数据集的每个序列都标注了其所属的缺失模式和缺失率,为后续研究从不同角度评估追踪器性能提供了便利。
实验结果表明,本研究提出的IPL方法在模态缺失和模态完整场景下均取得了优异性能。在模态缺失数据集(RGBT234-miss, LasHeR245-miss, VTUAV176-miss)上,IPL显著超越了所有使用“零填充”、“复制”和“GAN生成”三种补偿策略的先进RGBT追踪器。例如,在RGBT234-miss上,IPL在精度(Precision Rate, PR)和成功率(Success Rate, SR)指标上分别比当时表现次优的方法(TBSI w/ “copy”)高出5.9%和4.2%。在模态完整数据集(RGBT234, LasHeR, VTUAV)上,IPL也达到了领先或极具竞争力的性能,证明了其设计的通用性和有效性,且不会在完整场景下引入性能损失。详细的消融实验(Ablation Study)验证了各个组件的必要性:移除可逆提示器(用普通适配器LoRA代替)或移除任务对齐损失都会导致性能显著下降;浅层的提示生成(仅在网络第一层使用IPer)效果也逊于深层的分层生成策略。研究还进行了丰富的子集分析,展示了IPL在不同缺失模式(如长时缺失、切换缺失)和不同缺失率(30%至90%)子集上的稳定优越性。可视化结果(如跟踪结果对比、得分图、t-SNE特征分布图)直观地表明,IPL在模态缺失时能够生成高质量的提示,使得模型的关注区域和特征分布更接近于模态完整时的理想状态,从而实现了稳定、准确的跟踪。
本研究的结论是,针对RGBT追踪中的模态缺失挑战,首次系统性地提出了可逆提示学习框架,并创建了首个高质量、多样化的模态缺失RGBT追踪基准数据集。可逆提示学习方法通过其创新的双向内容保留生成机制,有效缓解了跨模态生成中的语义失真和信息丢失问题,显著提升了现有模型在模态缺失场景下的鲁棒性。同时,所构建的基准数据集为这一新兴研究方向提供了统一的评估平台和坚实的研究基础。
本研究的亮点在于:1. 问题新颖性:首次系统性地提出并定义了“模态缺失RGBT追踪”这一具有重要现实意义的研究问题。2. 方法创新性:首创性地将提示学习思想引入模态缺失问题,并提出“可逆提示器”这一核心组件,通过双向重建约束确保跨模态提示生成的内容保真度。3. 贡献全面性:不仅提出了创新的算法解决方案,还构建了高质量、结构化的基准数据集,填补了该领域评估平台的空白,对推动后续研究具有重要价值。4. 性能优越性:在广泛的实验验证中,所提方法在模态缺失和模态完整场景下均展现出卓越的性能和鲁棒性。
此外,研究还探讨了未来方向,例如如何处理“缺失模式未知”(missing-agnostic)的更现实挑战,即在实际应用中,系统可能无法预先知道哪个模态会缺失。当前IPL在对此进行简单扩展后已展现出潜力,但仍有优化空间,这为后续研究指明了方向。这项研究为多模态追踪在非理想现实环境下的应用提供了新的思路和有力的工具。