统一文本和框输出的视觉语言建模

分享自：
统一文本和框输出的视觉语言建模

期刊:ECCV 2022DOI:10.1007/978-3-031-20059-5_30
作者和研究背景本文作者为Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, 以及 Lijuan Wang，主要来自Microsoft Cloud and AI部门，研究成果发表于ECCV 2022（European Conference on Computer Vision 2022）。本文报告了一项原始研究，提出了一种名为Unitab的模型，用于统一处理图文相关任务中的文本与框（bounding box）输出。
当前计算机视觉与自然语言处理领域中的视觉-语言（Vision-Language, VL）任务，例如图文描述（image captioning）、视觉问题回答（Visual Question Answering, VQA）等，通常使用独立模块处理文本与图像区域（框）的生成和对齐。然而，这种分离式模块化设计导致了复杂性高、效率低下和任务扩展能力有限等问题。因此，本文提出了Unitab，一种针对统一图文（grounded vision-language）建模的框架，能够一体化生成文本和框，并自然表示文本与框之间的关联，从而克服传统方法的缺陷。
学术背景与研究目标视觉和语言的交集研究，即视觉-语言建模，是当前人工智能的重要方向之一。传统任务中，文本生成适用于对图片整体的高层次描述，而框生成（bounding box）则用于识别图片中具体的局部区域。然而，将文本与框联合建模，以生成综合的图像理解，一直是个挑战。特别是针对“grounded captioning”等任务，要求模型不仅生成描述性文本，还要将文本中的实体与图像具体区域相对应。
已有研究通常采用多个独立模块分别生成文本、框，以及两者的对齐信息。这类方法虽然有效，但其框架复杂且依赖预先训练好的检测器，限制了任务扩展能力以及模型性能。为应对这一挑战，Unitab的设计目标是去掉独立模块，采用统一的架构，同时以一种自然方式在输出中表示文本和框的对齐。
研究旨在回答以下科学问题： 1. 是否可以在没有显式检测器的情况下，构建框与文本联合建模的单一架构？ 2. 如何在序列输出中自然体现文本与框的对齐关系？
详细研究流程总体架构设计Unitab基于Transformer的编码-解码架构，能够对图像和文本联合表示，生成统一的”文本+框”编码输出序列。这一设计受Pix2Seq启发，将框预测转化为离散化的序列生成任务，而非传统的坐标回归。模型通过一个单一的Transformer解码器以自回归的方式生成令牌（token），其词汇表包含两部分：自然语言文本词和离散化的框坐标标记。
独特之处在于，Unitab引入了特殊标记<obj>与<\obj>，用来标示序列中的文本和框之间的对应关系。在生成文本相关的描写词后，切换到生成框的坐标，最后切换回文本继续生成。这种自然融入的设计使得文本与框在语义上达成一致。
目标序列生成目标序列（ground-truth sequence）的构造集成了文本词和框坐标的离散化表示： 1. 文本部分：基于自然语言描述，对应生成任务所需的文字内容。 2. 框部分：采用Pix2Seq的离散化方式，将每个框的四个坐标分别量化为离散标记，对齐文本的相应描述。
在训练过程中，模型优化条件语言建模目标（Conditioned Language Modeling Objective），以最大化每一步生成的令牌概率。
数据预处理与多任务训练研究分三个阶段进行模型训练： 1. 预训练：使用包含仅文本描述及文本-框标注的大规模图文配对数据（如Flickr30K、COCO、Visual Genome等），学习通用的视觉语言表征。 2. 多任务微调：结合实际任务数据，如COCO图文描述数据、Flickr30k实体标注数据等，将模型同时训练用于多个下游任务。 3. 任务专用微调：在多任务微调的基础上，对特定任务进一步调优。
多任务微调是Unitab的核心优势之一，避免重复训练多个特定模型，降低参数规模，同时通过数据共享提升下游任务性能。
数据分析流程生成序列后，文本和框的提取相对简单。文本部分通过抛弃框标记获得，而框则通过解析离散标记并去量化还原为坐标形式。同时可以从<obj>与<\obj>的标记中提取明确的词框对齐信息，用于评价“grounded”任务表现。
主要研究结果图文相关任务的实验表现Unitab在如下代表性任务上展示了广泛的适用性和性能提升： 1. Grounded Captioning：在Flickr30K Entities上，Unitab在描述质量的CIDEr指标上从62.5提升到69.7，F1的对齐准确度从8.44大幅提升至12.95，相较于已有研究实现显著领先。 2. Visual Grounding（语言指向的视觉定位）：在RefCOCO、RefCOCO+等基准测试上，Unitab在准确率ACC@0.5整体优于包括最新模型MDETR在内的多种方法。 3. COCO图文描述任务：相比类似规模的预训练方法，CIDEr指标从117.3提升到119.8。 4. Visual Question Answering：Unitab的生成式解答方法在VQAv2上取得了与当前最优模型接近的性能。
零样本泛化能力Unitab不仅在有标签任务上表现出色，也能很好地泛化到新任务。例如，在Imagenet对象定位任务中，Unitab在完全零样本的设定下取得超越现有方法的准确度，验证了其强大的跨任务扩展能力。
研究意义与贡献本文的研究工作意义在于： 1. 实现了视觉-语言任务中文本和框输出的统一，简化了模型结构设计，提升了训练和推理的效率； 2. 提高了包括grounded captioning等任务的性能，方法更易于扩展至新的任务； 3. 引入了自然表示对齐的特殊标记<obj>，简化了输出序列设计，为未来的研究提供了新方向。
此外，Unitab框架通过多任务训练和任务不可知的输出设计，展示出在新任务上的强大迁移能力，为构建通用视觉语言系统打下了基础。
重要创新与亮点Unitab的核心创新包括： - 提出基于自回归生成的单一解码架构，同时生成文本与框； - 引入<obj>标记实现自然的词框对齐； - 多任务训练显著提高了参数效率和任务间性能传递能力； - 零样本适应性展示了未来进一步通用化研究的可能性。
这项研究将为视觉语言领域未来的发展提供有力支持。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问