分享自:

基于Transformer的端到端目标检测

期刊:eccvDOI:10.1007/978-3-030-58452-8_13

Academic Report on “End-to-End Object Detection with Transformers”

作者与研究背景

本文研究由 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov 和 Sergey Zagoruyko 完成。据文中信息,作者分别来自法国外巴黎多芬大学(Paris Dauphine University)与美国 Menlo Park 的 Facebook AI 研究团队。此研究发表在 ECCV 2020(European Conference on Computer Vision 2020)的会议论文集中,具体为 Lecture Notes in Computer Science 系列第 12346 卷。

该研究以物体检测(Object Detection)为主题,着眼于利用 Transformers 实现端到端(End-to-End)的目标检测,提出了一种名为 DETR(Detection Transformer) 的全新方法。物体检测在计算机视觉领域中是一个核心问题,其目的是预测图像中每个目标的边界框(Bounding Boxes)及其所属类别标签。

学术背景

近年来,主流的目标检测模型如 Faster R-CNN、RetinaNet 等,倾向于通过阶段化方式解决目标检测问题。通常,它们会生成大量先验框(Anchor)或初始假设框(Proposal),并对这些框进行分类和回归。在此过程中,这类模型往往需要设计许多手工编码的组件,例如非极大值抑制(Non-Maximum Suppression, NMS)或 Anchor 集的构造,这些都引入了对任务的先验知识。尽管这些方法取得了高性能,但它们依赖于复杂管道,对模块的调整和优化需求较高。

Transformer 是近年来在自然语言处理领域中取得重大成功的架构,其中自注意力机制(Self-Attention)使其能够建模大规模全局关系。然而,之前在目标检测任务中尝试应用 Transformer 的方法并未提供显著的结果,原因在于这些方法往往仍需结合传统组件,或者未展现出竞争力。

出于对方法简化的需求,研究团队提出了 DETR。这一模型试图将目标检测转化为直接的集合预测问题,完全抛弃复杂的手工规则和 Anchor。其核心思想通过 Transformer Encoders 和 Decoders 的结合,设计了一种端到端、无后处理步骤的物体检测模型。

研究的主要目标如下: 1. 提出一种全新的目标检测方法:DETR。 2. 分析 DETR 的性能与现代主流方法(如 Faster R-CNN)对比的结果。 3. 探讨模型适用于更复杂任务(如 Panoptic Segmentation)的可能性。


研究流程与方法

模型架构

DETR 的架构设计包括如下几个主要模块: 1. CNN 特征提取器: - 输入图像通过常规卷积神经网络(CNN)提取特征图,分辨率较原图降低。研究中使用了标准的 ResNet(如 ResNet-50 或 ResNet-101)。 - 高层激活特征通过 1×1 卷积降维,从高通道数(如 2048)降至较小数值(如 256)。

  1. Transformer 编码器

    • 使用 Transformer Encoder 模块处理输入的 2D 特征图。由于 Transformer 是为序列数据设计的,特征图被扁平化处理为 1D 序列。
    • 引入固定位置编码(Positional Encoding)以提供空间信息。
    • 编码器通过多头自注意力机制(Multi-head Self-Attention)计算所有目标间的全局关系。
  2. Transformer 解码器

    • 解码器以学习得到的 “Object Queries”(固定数量的目标位置编码)作为输入。
    • 通过自注意力和解码-编码注意力(Encoder-Decoder Attention),解码器将对候选目标特征进行整合。
  3. 目标检测预测头(FFNs)

    • 每个解码器输出都通过简单的前馈神经网络(Feed Forward Networks, FFNs)输出边界框坐标和类别标签。

训练过程

模型的设计结合了集合预测损失(Set Prediction Loss),其中包含: 1. 匈牙利匹配(Hungarian Matching): - 为确保每个预测与唯一的 Ground Truth 匹配,利用匈牙利算法计算二分图匹配代价。 - 延用负对数似然损失(Negative Log-Likelihood Loss)结合边界框损失(L1 + Generalized IoU Loss)。

  1. 辅助解码损失
    • 为提高每一层解码器的预测效率,在训练过程中对中间解码层的输出加入辅助损失。

整个模型无需非极大值抑制(NMS)操作即可通过注意力机制避免重复预测,从而进一步简化了目标检测管道。


研究结果

在 COCO 数据集上的实验评估

COCO 2017 是目标检测领域的一个标准基准数据集,包含约 118,000 张训练图像和 5,000 张验证图像,每张图像标注有边界框和类别信息。

实验显示: 1. 性能对比: - 在 ResNet-50 Backbone 条件下,DETR 的 AP(平均精度)为 42.0,与 Faster R-CNN 的 42.0 相当。 - DETR 在检测大目标时表现显著优越(APL 高出 7.8 分),但在检测小目标时略有不足(APS 低 5.5 分)。

  1. 训练需求
    • DETR 需要较长的训练周期(300 至 500 个 Epoch),比传统检测器更高的优化需求。
在 Panoptic Segmentation 的扩展

研究还探索了 DETR 在全景分割(Panoptic Segmentation)任务中的表现。通过在解码器的全局关系推理上附加简单的二值分割头,DETR 在处理分割任务时展现出强大的统一性和优秀表现。


研究结论

  1. 科学意义

    • DETR 引入了一种彻底不同的表述方式,将目标检测问题转化为集合预测问题,克服了传统方法中复杂的组件设计需求。
  2. 应用价值

    • DETR 的框架直接适配目标检测和全景分割任务,为多任务统一模型提出了新的思路。
    • 由于架构简单,可以在任何支持 ResNet 和 Transformer 的深度学习框架下方便地复现。
  3. 研究亮点

    • 全面去除了 Anchor 和 NMS 等手工设计的模块。
    • 创造性地引入匈牙利匹配和直接边界框预测方法。
    • 在解决目标重复预测问题上显示了 Transformer 的全局建模能力。

展望与未来挑战

尽管 DETR 模型展现了强大的直接检测能力,并且结构简单、易于复现,其在小目标检测的性能尚有改进空间。此外,模型对长时间训练的依赖和计算代价高仍需进一步优化。研究团队期待未来的工作能弥补此类不足,为端到端目标检测开辟更广阔的应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com