基于Transformer的端到端目标检测

分享自：
基于Transformer的端到端目标检测

期刊:eccvDOI:10.1007/978-3-030-58452-8_13
Academic Report on “End-to-End Object Detection with Transformers”作者与研究背景本文研究由 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov 和 Sergey Zagoruyko 完成。据文中信息，作者分别来自法国外巴黎多芬大学（Paris Dauphine University）与美国 Menlo Park 的 Facebook AI 研究团队。此研究发表在 ECCV 2020（European Conference on Computer Vision 2020）的会议论文集中，具体为 Lecture Notes in Computer Science 系列第 12346 卷。
该研究以物体检测（Object Detection）为主题，着眼于利用 Transformers 实现端到端（End-to-End）的目标检测，提出了一种名为 DETR（Detection Transformer） 的全新方法。物体检测在计算机视觉领域中是一个核心问题，其目的是预测图像中每个目标的边界框（Bounding Boxes）及其所属类别标签。
学术背景近年来，主流的目标检测模型如 Faster R-CNN、RetinaNet 等，倾向于通过阶段化方式解决目标检测问题。通常，它们会生成大量先验框（Anchor）或初始假设框（Proposal），并对这些框进行分类和回归。在此过程中，这类模型往往需要设计许多手工编码的组件，例如非极大值抑制（Non-Maximum Suppression, NMS）或 Anchor 集的构造，这些都引入了对任务的先验知识。尽管这些方法取得了高性能，但它们依赖于复杂管道，对模块的调整和优化需求较高。
Transformer 是近年来在自然语言处理领域中取得重大成功的架构，其中自注意力机制（Self-Attention）使其能够建模大规模全局关系。然而，之前在目标检测任务中尝试应用 Transformer 的方法并未提供显著的结果，原因在于这些方法往往仍需结合传统组件，或者未展现出竞争力。
出于对方法简化的需求，研究团队提出了 DETR。这一模型试图将目标检测转化为直接的集合预测问题，完全抛弃复杂的手工规则和 Anchor。其核心思想通过 Transformer Encoders 和 Decoders 的结合，设计了一种端到端、无后处理步骤的物体检测模型。
研究的主要目标如下： 1. 提出一种全新的目标检测方法：DETR。 2. 分析 DETR 的性能与现代主流方法（如 Faster R-CNN）对比的结果。 3. 探讨模型适用于更复杂任务（如 Panoptic Segmentation）的可能性。
研究流程与方法模型架构DETR 的架构设计包括如下几个主要模块： 1. CNN 特征提取器： - 输入图像通过常规卷积神经网络（CNN）提取特征图，分辨率较原图降低。研究中使用了标准的 ResNet（如 ResNet-50 或 ResNet-101）。 - 高层激活特征通过 1×1 卷积降维，从高通道数（如 2048）降至较小数值（如 256）。
Transformer 编码器：
使用 Transformer Encoder 模块处理输入的 2D 特征图。由于 Transformer 是为序列数据设计的，特征图被扁平化处理为 1D 序列。
引入固定位置编码（Positional Encoding）以提供空间信息。
编码器通过多头自注意力机制（Multi-head Self-Attention）计算所有目标间的全局关系。
Transformer 解码器：
解码器以学习得到的 “Object Queries”（固定数量的目标位置编码）作为输入。
通过自注意力和解码-编码注意力（Encoder-Decoder Attention），解码器将对候选目标特征进行整合。
目标检测预测头（FFNs）：
每个解码器输出都通过简单的前馈神经网络（Feed Forward Networks, FFNs）输出边界框坐标和类别标签。
训练过程模型的设计结合了集合预测损失（Set Prediction Loss），其中包含： 1. 匈牙利匹配（Hungarian Matching）： - 为确保每个预测与唯一的 Ground Truth 匹配，利用匈牙利算法计算二分图匹配代价。 - 延用负对数似然损失（Negative Log-Likelihood Loss）结合边界框损失（L1 + Generalized IoU Loss）。
辅助解码损失： 为提高每一层解码器的预测效率，在训练过程中对中间解码层的输出加入辅助损失。
整个模型无需非极大值抑制（NMS）操作即可通过注意力机制避免重复预测，从而进一步简化了目标检测管道。
研究结果在 COCO 数据集上的实验评估COCO 2017 是目标检测领域的一个标准基准数据集，包含约 118,000 张训练图像和 5,000 张验证图像，每张图像标注有边界框和类别信息。
实验显示： 1. 性能对比： - 在 ResNet-50 Backbone 条件下，DETR 的 AP（平均精度）为 42.0，与 Faster R-CNN 的 42.0 相当。 - DETR 在检测大目标时表现显著优越（APL 高出 7.8 分），但在检测小目标时略有不足（APS 低 5.5 分）。
训练需求： DETR 需要较长的训练周期（300 至 500 个 Epoch），比传统检测器更高的优化需求。
在 Panoptic Segmentation 的扩展研究还探索了 DETR 在全景分割（Panoptic Segmentation）任务中的表现。通过在解码器的全局关系推理上附加简单的二值分割头，DETR 在处理分割任务时展现出强大的统一性和优秀表现。
研究结论科学意义：
DETR 引入了一种彻底不同的表述方式，将目标检测问题转化为集合预测问题，克服了传统方法中复杂的组件设计需求。
应用价值：
DETR 的框架直接适配目标检测和全景分割任务，为多任务统一模型提出了新的思路。
由于架构简单，可以在任何支持 ResNet 和 Transformer 的深度学习框架下方便地复现。
研究亮点：
全面去除了 Anchor 和 NMS 等手工设计的模块。
创造性地引入匈牙利匹配和直接边界框预测方法。
在解决目标重复预测问题上显示了 Transformer 的全局建模能力。
展望与未来挑战尽管 DETR 模型展现了强大的直接检测能力，并且结构简单、易于复现，其在小目标检测的性能尚有改进空间。此外，模型对长时间训练的依赖和计算代价高仍需进一步优化。研究团队期待未来的工作能弥补此类不足，为端到端目标检测开辟更广阔的应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问