本文研究由 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov 和 Sergey Zagoruyko 完成。据文中信息,作者分别来自法国外巴黎多芬大学(Paris Dauphine University)与美国 Menlo Park 的 Facebook AI 研究团队。此研究发表在 ECCV 2020(European Conference on Computer Vision 2020)的会议论文集中,具体为 Lecture Notes in Computer Science 系列第 12346 卷。
该研究以物体检测(Object Detection)为主题,着眼于利用 Transformers 实现端到端(End-to-End)的目标检测,提出了一种名为 DETR(Detection Transformer) 的全新方法。物体检测在计算机视觉领域中是一个核心问题,其目的是预测图像中每个目标的边界框(Bounding Boxes)及其所属类别标签。
近年来,主流的目标检测模型如 Faster R-CNN、RetinaNet 等,倾向于通过阶段化方式解决目标检测问题。通常,它们会生成大量先验框(Anchor)或初始假设框(Proposal),并对这些框进行分类和回归。在此过程中,这类模型往往需要设计许多手工编码的组件,例如非极大值抑制(Non-Maximum Suppression, NMS)或 Anchor 集的构造,这些都引入了对任务的先验知识。尽管这些方法取得了高性能,但它们依赖于复杂管道,对模块的调整和优化需求较高。
Transformer 是近年来在自然语言处理领域中取得重大成功的架构,其中自注意力机制(Self-Attention)使其能够建模大规模全局关系。然而,之前在目标检测任务中尝试应用 Transformer 的方法并未提供显著的结果,原因在于这些方法往往仍需结合传统组件,或者未展现出竞争力。
出于对方法简化的需求,研究团队提出了 DETR。这一模型试图将目标检测转化为直接的集合预测问题,完全抛弃复杂的手工规则和 Anchor。其核心思想通过 Transformer Encoders 和 Decoders 的结合,设计了一种端到端、无后处理步骤的物体检测模型。
研究的主要目标如下: 1. 提出一种全新的目标检测方法:DETR。 2. 分析 DETR 的性能与现代主流方法(如 Faster R-CNN)对比的结果。 3. 探讨模型适用于更复杂任务(如 Panoptic Segmentation)的可能性。
DETR 的架构设计包括如下几个主要模块: 1. CNN 特征提取器: - 输入图像通过常规卷积神经网络(CNN)提取特征图,分辨率较原图降低。研究中使用了标准的 ResNet(如 ResNet-50 或 ResNet-101)。 - 高层激活特征通过 1×1 卷积降维,从高通道数(如 2048)降至较小数值(如 256)。
Transformer 编码器:
Transformer 解码器:
目标检测预测头(FFNs):
模型的设计结合了集合预测损失(Set Prediction Loss),其中包含: 1. 匈牙利匹配(Hungarian Matching): - 为确保每个预测与唯一的 Ground Truth 匹配,利用匈牙利算法计算二分图匹配代价。 - 延用负对数似然损失(Negative Log-Likelihood Loss)结合边界框损失(L1 + Generalized IoU Loss)。
整个模型无需非极大值抑制(NMS)操作即可通过注意力机制避免重复预测,从而进一步简化了目标检测管道。
COCO 2017 是目标检测领域的一个标准基准数据集,包含约 118,000 张训练图像和 5,000 张验证图像,每张图像标注有边界框和类别信息。
实验显示: 1. 性能对比: - 在 ResNet-50 Backbone 条件下,DETR 的 AP(平均精度)为 42.0,与 Faster R-CNN 的 42.0 相当。 - DETR 在检测大目标时表现显著优越(APL 高出 7.8 分),但在检测小目标时略有不足(APS 低 5.5 分)。
研究还探索了 DETR 在全景分割(Panoptic Segmentation)任务中的表现。通过在解码器的全局关系推理上附加简单的二值分割头,DETR 在处理分割任务时展现出强大的统一性和优秀表现。
科学意义:
应用价值:
研究亮点:
尽管 DETR 模型展现了强大的直接检测能力,并且结构简单、易于复现,其在小目标检测的性能尚有改进空间。此外,模型对长时间训练的依赖和计算代价高仍需进一步优化。研究团队期待未来的工作能弥补此类不足,为端到端目标检测开辟更广阔的应用前景。