基于图神经网络的多目标跟踪方法研究

分享自：
基于图神经网络的多目标跟踪方法研究

期刊:哈尔滨工程大学
关于《基于图神经网络的多目标跟踪方法研究》博士论文的学术报告
本文档属于类型a：一份报告单一原创研究的文档，具体为哈尔滨工程大学工学博士研究生张钰渤在其导师黄庆明教授指导下完成的博士学位论文《基于图神经网络的多目标跟踪方法研究》（Research on Multi-Object Tracking Methods with Graph Neural Networks）。该论文于2025年4月15日提交，并于同年5月30日进行答辩。
第一， 论文的作者、机构及发表信息 本研究的作者为哈尔滨工程大学计算机科学与技术学院的博士研究生张钰渤，指导教师为黄庆明教授。该研究以博士学位论文的形式完成，提交于2025年4月15日，预计答辩日期为2025年5月30日，学位授予单位为哈尔滨工程大学。
第二， 研究的学术背景 本研究的主要科学领域为计算机视觉（Computer Vision）中的多目标跟踪（Multi-Object Tracking, MOT）。随着视频采集设备的普及和数据量的爆炸式增长，人工处理视频信息变得困难，自动化、智能化的多目标跟踪技术成为研究热点。多目标跟踪旨在视频序列中持续定位多个目标并维持其身份（ID）的一致性，是姿态估计、行为分析等高层视觉任务的基础，在智能监控、自动驾驶、智慧交通等领域具有重要应用价值。
然而，现有MOT方法在实际应用中面临核心挑战，这些问题直接影响了跟踪的精度和鲁棒性。这些挑战包括：1） 目标频繁交互导致特征区分度低：在密集或群体场景中，目标彼此靠近、遮挡，使得基于单一目标自身的外观或运动特征难以区分。2） 特征更新过程不合理：在利用图神经网络（Graph Neural Network, GNN）建模目标间交互时，图节点（代表目标）的特征更新策略（即如何平衡节点自身特征与邻居特征的影响）若不合适，会导致提取的交互特征鲁棒性差。3） 目标外观变化导致长期跟踪能力差：目标在运动过程中的视角变化、形变和遮挡会导致其外观特征发生显著变化，使得基于固定外观模板的匹配方法失效。4） 提取多种特征导致计算成本增加：为了提高精度，许多方法同时计算外观、运动、交互等多种特征，这显著增加了计算负担，影响了算法的实时性。
本研究旨在解决上述问题。其核心目标是：通过引入并改进图神经网络（GNN），更有效地编码多目标跟踪中的复杂关系（包括目标间交互关系、目标局部特征间关系、轨迹内时间关系），从而提取区分度更高、更鲁棒的特征，进而提升多目标跟踪方法在各种复杂场景下的性能。 论文旨在提出一系列适应不同场景需求的、基于GNN的MOT方法。
第三， 研究的详细工作流程 本研究并非提出一个单一方法，而是针对前述不同挑战，循序渐进地提出了四个具有递进关系的创新性MOT方法（IFTracker, ORTracker, AETracker, DNHGTracker），构成了一个完整的研究体系。每个方法都是一个独立且完整的研究流程，包含数据处理、模型设计、实验验证和结果分析。
研究流程1：基于交互特征提取的多目标跟踪方法（IFTracker） 本流程针对“目标频繁交互导致区分度低”的问题。 1. 研究对象与数据：在MOT16和MOT17公开数据集上开展研究。这些数据集包含带有拥挤、遮挡、相机运动等挑战场景的行人跟踪视频序列及其对应的公开检测框结果。 2. 处理与实验方法： * 特征图构建：对于每一帧中的检测目标（当前帧）和已有的轨迹（历史目标），分别构建外观图和运动图。图中节点代表一个目标（检测或轨迹），节点特征分别为其外观特征（通过预训练网络提取）和运动特征（如边界框中心坐标、尺寸等）。图的边根据目标间的空间距离（如IoU或中心点距离）连接邻居节点。 * 交互特征提取：利用图卷积网络（Graph Convolutional Network, GCN） 分别对外观图和运动图进行更新。GCN通过聚合每个节点及其邻居节点的信息，为每个节点生成新的特征，这个新特征即包含了“交互”信息的外观交互特征和运动交互特征。 * 多相似度融合：对于每一对“检测-轨迹”，计算四种相似度：原始外观特征余弦相似度、原始运动特征（如马氏距离转换的相似度）、外观交互特征相似度、运动交互特征相似度。然后，设计一个多层感知机（Multilayer Perceptron, MLP） 来融合这四种相似度，得到一个综合的关联代价分数。 * 数据关联：使用基于Sinkhorn算法的数据关联方法，根据综合代价矩阵，将检测分配到最匹配的轨迹上，完成跟踪。 3. 新颖方法：本研究首次提出基于外观和运动信息的双流交互特征提取器（双GCN），以及基于多种相似度的MLP融合方法。其创新在于主动利用邻居信息来增强对相似目标的区分能力。
研究流程2：引入遮挡信息的多目标跟踪方法（ORTracker） 本流程针对“图更新过程不合理”的问题，是对IFTracker中交互特征提取模块的深化改进。 1. 研究对象与数据：同样基于MOT16和MOT17数据集。 2. 处理与实验方法： * 遮挡权重计算：设计一个子网络，根据目标的外观特征和位置信息，估计其被遮挡的概率，作为遮挡权重。 * 改进的图卷积：提出遮挡相关GCN（Occlusion-Related GCN, ORGCN）。其核心创新在于，在GCN更新节点特征时，利用遮挡权重动态调节节点自身特征与聚合来的邻居特征的保留比例。例如，对于被遮挡严重的目标，其自身外观特征不可靠，则更多地依赖邻居的信息；对于未被遮挡的目标，则更相信自身特征。这使得交互特征的提取更符合MOT任务的实际情况。 * 交互特征相似度计算模块（ISM）：将ORGCN封装为一个独立的模块，用于计算检测与轨迹之间的交互特征相似度。 * 特征融合与关联：采用基于门控函数的特征融合策略，在不同跟踪阶段（如首次匹配和再次匹配）自适应地融合交互相似度与其他特征相似度（如IoU）。最后，使用一个引入遮挡率的双阶段数据关联算法（先匹配高置信度检测，再处理困难情况）得到最终结果。 3. 新颖方法：核心创新是遮挡相关GCN（ORGCN） 的设计。论文还将ISM模块集成到多个基线跟踪方法（如BoT-SORT）中，验证其通用性和有效性。
研究流程3：基于外观特征增强的多目标跟踪方法（AETracker） 本流程针对“外观变化导致长期跟踪能力差”的问题，是一个更综合的框架。 1. 研究对象与数据：研究拓展到更具挑战性的MOT20数据集（目标密度极高），同时在MOT16/17上验证。 2. 处理与实验方法： * 外观特征增强模块（AEM）：不再直接使用全局外观特征。首先，从目标图像区域提取多尺度局部特征（例如，将图像块分割为不同大小的网格）。然后，构建一个局部特征关系图，节点是各个局部特征块。利用GNN（如图注意力网络GAT）更新该图，使局部特征间能够进行信息交互，最后融合成一个增强的、更具判别力的全局外观特征。 * 时序特征更新模块（TFUM）：为应对轨迹中目标外观的变化，提出使用基于双拉普拉斯算子的GCN来更新轨迹的外观特征模板。该方法的创新在于，同时考虑轨迹中历史外观特征的“共性”（保持身份一致性）和“特性”（适应外观变化），通过两种不同的拉普拉斯算子分别建模，然后融合，从而生成更健壮、更具代表性的轨迹外观特征模板。 * 交互特征相似度计算：改进ISM模块，使用GAT边特征来初始化交互图，以更精细地计算交互相似度。 * 整体框架：AETracker集成了AEM、改进的ISM和TFUM三个模块，形成了外观增强、交互建模和轨迹模板更新的闭环。 3. 新颖方法：提出了三个核心模块：基于多尺度局部特征GNN增强的外观特征提取器（AEM）、基于GAT边特征的交互相似度计算模块、以及基于双拉普拉斯算子GCN的时序特征更新模块（TFUM）。重点解决了长期跟踪中的外观演建模问题。
研究流程4：基于有向邻居异构图的多目标跟踪方法（DNHGTracker） 本流程针对“多特征提取导致计算成本高”的问题，旨在提升效率。 1. 研究对象与数据：在MOT16、MOT17和MOT20数据集上验证效率与精度的平衡。 2. 处理与实验方法： * 高效外观增强：提出图融合卷积（Graph-Fusion Convolution, GFConv） 来替代AEM中较复杂的多尺度GNN，以较低计算成本增强外观特征。 * 两阶段匹配与构图：第一阶段：仅使用高效提取的外观特征和运动特征进行初步匹配，得到高置信度的匹配对。第二阶段：构建有向邻居异构图（Directed Neighbor Heterogeneous Graph, DNHG）。该图的创新性在于：1） 节点分为可靠节点（已匹配的轨迹和检测）和不可靠节点（未匹配的轨迹和低置信度检测）。2） 使用有向边连接不可靠节点到其最近的K个可靠节点，表示不可靠节点从可靠邻居获取信息。这种设计能减少虚检（False Positive, FP）节点对图的污染，并显著缩小需要计算交互特征的图规模。 * 交互特征提取：对构建的DNHG使用双层GAT进行更新，为不可靠节点生成包含可靠邻居信息的交互特征。 * 二次匹配：利用更新后的交互特征结合运动特征，对第一阶段未匹配的目标进行第二次关联。 3. 新颖方法：核心创新是有向邻居异构图（DNHG） 的构建和图融合卷积（GFConv）。通过选择性计算交互特征（仅针对难跟踪目标）和高效的构图策略，在保证精度的同时大幅提升了计算效率。
数据工作流程：所有方法均遵循标准的机器学习研究流程：使用公开数据集划分训练/验证/测试集；利用训练集训练新提出的模块（如ORGCN、AEM中的GNN、融合MLP等）；在验证集上进行超参数调优和消融实验；最终在测试集上报告性能指标，并与当前主流方法进行对比。
第四， 研究的主要结果 每个研究流程都产生了相应的实验结果，支持了其方法的有效性，并为后续研究提供了基础。
IFTracker的结果：在MOT16和MOT17测试集上，IFTracker的IDF1（侧重关联性能）和HOTA（平衡检测与关联）相比其基线方法GCNNMatch有显著提升。具体数据为：在MOT16上，IDF1提升4.18%，HOTA提升1.71%；在MOT17上，IDF1提升3.99%，HOTA提升1.68%。这些数据证明，引入交互特征并有效融合，确实能提升在目标交互频繁场景下的跟踪精度，特别是长期身份保持能力。实验结果也通过消融实验验证了外观交互特征和运动交互特征各自的有效性。
ORTracker的结果：首先，将提出的ISM（基于ORGCN）集成到多个基线跟踪器上，均能一致地提升其性能，证明了ORGCN模块的通用性和有效性。其次，将ISM集成到改进的BoT-SORT框架中，构成了ORTracker，取得了优异的性能：在MOT16上，MOTA为80.6%，IDF1为80.4%，HOTA为65.3%；在MOT17上，MOTA为81.1%，IDF1为80.1%，HOTA为65.1%。这些结果达到了当时领先水平。实验特别分析了不同遮挡程度下ORGCN的作用，结果显示其在处理遮挡目标时比其他GCN变体更有效，验证了“动态调整自身与邻居信息比例”这一设计的正确性。
AETracker的结果：该方法在相对稀疏的MOT16/17和极度密集的MOT20数据集上都展现了强大的长期跟踪能力。其IDF1和HOTA在三个数据集上分别达到：MOT16（80.8%， 65.4%）、MOT17（80.5%， 65.2%）、MOT20（77.4%， 63.2%）。这证明了其外观增强模块（AEM）和时序更新模块（TFUM）对于应对外观变化和长期跟踪的有效性。消融实验表明，多尺度局部特征、双拉普拉斯算子GCN等组件都对最终性能有重要贡献。AETracker在IDF1指标上的突出表现，直接反映了其在维持目标身份连续性方面的优势。
DNHGTracker的结果：该方法在保持与AETracker相近甚至略优的精度的同时，大幅提升了运行速度。其在三个数据集上的IDF1/HOTA为：MOT16（80.8%， 65.4%）、MOT17（80.6%， 65.3%）、MOT20（78.0%， 63.8%）。更重要的是，通过构建DNHG，该方法将交互特征的计算范围从所有目标大幅缩减到仅“不可靠节点”，同时利用有向边结构抑制了FP的干扰。论文报告了显著的FPS提升，证明了其在计算效率上的优势。这解决了“精度-效率”权衡的难题，使得高性能的基于GNN的MOT方法更贴近实际应用需求。
结果的逻辑关系：这四个方法的结果环环相扣。IFTracker证明了引入交互特征的有效性；ORTracker改进了交互特征的提取方式，获得了精度提升；AETracker进一步融合了外观增强和轨迹建模，攻克了长期跟踪的难题；DNHGTracker则在前三者的基础上优化了计算架构，实现了效率突破。每一步的结果都揭示了前序方法的不足，并自然地引出了下一阶段的研究方向，构成了一个从发现问题、提出核心改进、到系统优化、最终兼顾效率的完整研究链条。这些结果共同强有力地支持了论文的核心结论：GNN是提升MOT特征判别力的强大工具，通过针对性地设计GNN结构以建模MOT中的特定关系，可以系统性提升跟踪性能。
第五， 研究的结论与价值 本研究系统性地探索并证明了图神经网络在多目标跟踪任务中的巨大潜力与应用价值。
科学价值： 1. 理论创新：提出了一系列新颖的GNN结构与应用模式，包括双流交互GCN、遮挡相关GCN、用于外观增强的局部特征GNN、双拉普拉斯算子时序GCN、以及有向邻居异构图。这些工作丰富了GNN在动态时空关系建模方面的理论体系。 2. 方法学贡献：为多目标跟踪领域提供了四个可扩展的、模块化的高性能解决方案。这些方法清晰地展示了如何将目标间交互、目标内部局部特征关系、轨迹时序关系等非欧几里得数据结构化，并通过GNN进行有效学习。 3. 对挑战的针对性解决：研究直面MOT领域的几个核心挑战，并通过严谨的实验设计，验证了所提方法在应对这些挑战时的有效性，为后续研究提供了清晰的技术路径和基线。
应用价值： 1. 提升跟踪性能：所提出的方法在公开权威基准测试上取得了领先或具有竞争力的性能，特别是在维持身份一致性（IDF1）和综合性能（HOTA）方面表现突出，能够直接应用于对跟踪精度要求高的场景，如高级别自动驾驶、精细化行为分析等。 2. 推动算法落地：DNHGTracker工作尤其重要，它解决了复杂模型计算开销大的问题，通过算法创新在基本不损失精度的情况下提升了效率，使得基于深度学习和GNN的先进MOT算法更有可能部署在计算资源受限的边缘设备上。 3. 提供模块化工具：论文中的多个模块（如ORGCN、ISM、TFUM等）具有较好的通用性，可以被其他研究人员集成到不同的跟踪框架中，以提升其性能。
第六， 研究的亮点 1. 研究体系的系统性：论文不是孤立地提出一个方法，而是围绕核心问题（利用GNN提升特征判别力）展开了一个层层递进、覆盖“有效性-鲁棒性-长期性-高效性”四个维度的完整研究体系，逻辑严密，贡献扎实。 2. GNN结构设计的创新性与针对性：每一项工作都包含了专门为MOT任务量身定制的GNN创新设计。例如，ORGCN的遮挡自适应更新、TFUM的双拉普拉斯算子设计、DNHG的有向异构图结构，都紧密贴合了MOT任务的特点（遮挡、外观演变、FP干扰等），而非简单套用现有GNN模型。 3. 实验的充分性与说服力：研究在多个标准数据集（MOT16/17/20）上进行了全面验证，不仅报告了最终的SOTA或near-SOTA结果，还进行了大量的消融实验、模块迁移实验、与强基线对比实验，深入分析了各组件的作用和方法的局限性，论证充分。 4. 兼顾前沿探索与实用考量：研究既追求性能的边界（如AETracker），也切实考虑算法的实用性（如DNHGTracker），体现了从学术研究到实际应用过渡的完整思考。
第七， 其他有价值的内容 论文在第一章绪论中对多目标跟踪的国内外研究现状进行了全面且清晰的梳理，特别是对基于单一特征和混合特征的方法进行了分类总结，并对各类方法中特征提取（外观、运动、交互）和轨迹更新技术的演进脉络、优缺点进行了深入剖析。这部分内容本身具有很高的参考价值，为读者快速把握MOT领域的技术格局提供了清晰的路线图。同时，论文在每个章节末尾都坦诚地讨论了所提方法的局限性（如IFTracker在邻居相似时的局限、AETracker在复杂场景下的挑战等），并指出了未来可能的研究方向，这种严谨的学术态度值得称道。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问