对象检测的语言建模框架：Pix2Seq

分享自：

对象检测的语言建模框架：Pix2Seq

期刊:iclr

“Pix2Seq: A Language Modeling Framework for Object Detection”的研究报告

主要作者与研究机构
本文由Ting Chen、Saurabh Saxena、Lala Li、David J. Fleet和Geoffrey Hinton完成，作者来自Google Research的Brain Team。本文发表于ICLR 2022（International Conference on Learning Representations 2022），是一篇关于图像目标检测（Object Detection）的原创研究。

研究背景
目标检测是计算机视觉中的核心任务之一，其目标是识别和定位图像中的所有预定义类别的目标。传统目标检测算法通常需要复杂的网络结构和大量的任务特定先验知识，如边界框（Bounding Box）的提议生成、区域池化（ROI Pooling）、Anchor机制等。然而，这些方法尽管具有较高的精度，却缺乏通用性，很难扩展到更广泛的智能系统中或用于其他视觉任务。

基于此背景，作者提出了一种全新的方法Pix2Seq，将目标检测问题重新定义为语言建模（Language Modeling）任务。这一框架通过将目标（如边界框和类别标签）的描述表示为离散序列，并训练神经网络将像素输入与这种目标描述序列对应，从而实现目标检测。该方法具有通用性强、简单且可扩展的特点，且在多个数据集上达到了与传统检测方法相当的效果，特别是在COCO数据集上表现优异。

研究的最终目标是探索通用图像表示学习框架，使其不仅适用于目标检测，同时也为通向通用人工智能的视觉处理系统奠定基础。

研究流程与方法

本文的研究流程包括以下几个关键部分：

1. 边界框与序列的构建与量化

作者首先提出了一种量化和序列化的策略，将目标检测中的图像标注信息（边界框和类别标签）转换为一段离散的序列。
- 每个边界框由五个离散的标记表示，即[ymin, xmin, ymax, xmax, c]，分别表示目标区域的左上、右下坐标以及类别索引c。 - 坐标的量化采用均匀分箱的方式，连续的坐标数值被映射到一个有限数量（如600或更多）的离散箱（bins）。每张图像也包含一个特定的”结束序列标记”（EOS Token），用于标明序列结束。

通过这种方式，神经网络可以利用共享的词汇表生成目标描述，而不需要复杂的边界框回归任务。这一量化过程的精度和效果通过实验进行验证，作者发现当量化箱的数量达到500或以上，对边界框的精度几乎无影响。

2. 网络结构设计

Pix2Seq采用了一种编码器-解码器（Encoder-Decoder）架构： - 编码器 用于感知图像并将像素输入映射到隐藏表示。编码器可以使用卷积网络（ConvNet）、Transformer，或两者的结合。 - 解码器 是基于Transformer的自回归生成模型，可逐一生成目标检测序列的每个Token。

这一结构不依赖于传统目标检测的定制模块，例如区域提议网络（RPN）或多头网络，而是通过一个Softmax层和共享的词汇表生成坐标和类别标签的Token。

3. 目标函数

模型的训练使用最大似然函数（Maximum Likelihood）优化，目标是最大化生成序列的条件概率：

maximize ∑ w_j log p(ỹj | x, y1:j−1)

其中，x是输入图像，y是对应的序列描述。为了提高模型语义学习的泛化性，作者还提出了一种”序列增强”（Sequence Augmentation）技术，向输入序列中加入合成的噪声目标（如随机生成的边界框）来丰富模型训练。

实验设计与结果分析

1. 数据与实验设置

实验主要在COCO 2017检测数据集上进行，该数据集包含118K张训练图像和5K张验证图像。为对比，Pix2Seq与两种主流检测方法进行比较： - Faster R-CNN：一种经典的、基于区域提议和多任务建模的目标检测方法。 - DETR：一种基于Transformer的端到端目标检测模型。

2. 训练策略

Pix2Seq采用了两种训练策略： - 从零开始的训练（Training from Scratch）：直接在COCO数据集上训练Pix2Seq模型，以评估其性能。 - 预训练+微调（Pretraining + Finetuning）：在更大规模的Objects365数据集上进行预训练，然后在COCO数据集上进行微调。

实验表明，预训练过程可以显著提高模型的性能和泛化能力。例如，预训练后，Pix2Seq模型在COCO数据集上的平均精度（AP）从45.0提升至50.0。

3. 实验结果

（1）与其他方法的比较（见Table 1）

Pix2Seq在小物体检测上的表现优于DETR，AP高出约4-5点。
与Faster R-CNN相比，对中小物体的检测性能相当，但大物体表现优异。
使用ResNet-50或ResNet-101作为主干网络时，Pix2Seq的性能与现有方法高度接近，但无需任务定制化模块。

（2）序列增强的效果（见Figure 8）

序列增强显著提高了召回率（Recall）。通过向训练数据加入噪声目标，可以增强模型对注释噪声或遗漏目标的鲁棒性，平均精度提升了约2%。

（3）Nucleus Sampling的效果

为了进一步减少生成序列中的重复或无效预测，作者对模型推理阶段使用了Nucleus Sampling采样策略。当Top-p值设置为0.4时，模型显示出最好的平衡性能。

研究结论及意义

科学贡献
Pix2Seq通过将目标检测重新定义为语言建模任务，为这一领域提供了一个全新的思路。它不仅在检测精度上达到与传统方法相当的水平，还显著简化了目标检测的设计与实现流程，表明语言模型在跨领域任务中的潜力。
实用价值
作者指出，这一框架不仅适用于目标检测，还可以推广到其他视觉任务（如关键点检测、图像描述生成、视觉问答等）。它的通用性为未来实现统一的视觉任务处理接口提供了可能性。
研究局限与下一步方向
目前，Pix2Seq在长序列生成上的速度仍不够高，特别是在实时检测任务中的应用需要进一步优化。另外，当前的模型完全依赖于人工标注数据，未来可以考虑减少对人工标注的依赖性，从而利用大量的未标注数据进一步提高性能。

研究亮点

方法创新：首次将目标检测重构为语言建模任务。
通用性强：无需边界框提议、Anchor或任务特定的损失函数，框架本身具备极高的灵活性。
泛化能力：在不同任务和数据集上的迁移能力强，支持跨任务应用。

Pix2Seq提供了一种创新且通用的图像目标检测解决方案，为目标检测和其他视觉任务的统一研究带来了新的可能性。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问