本文作者为Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, 以及 Lijuan Wang,主要来自Microsoft Cloud and AI部门,研究成果发表于ECCV 2022(European Conference on Computer Vision 2022)。本文报告了一项原始研究,提出了一种名为Unitab的模型,用于统一处理图文相关任务中的文本与框(bounding box)输出。
当前计算机视觉与自然语言处理领域中的视觉-语言(Vision-Language, VL)任务,例如图文描述(image captioning)、视觉问题回答(Visual Question Answering, VQA)等,通常使用独立模块处理文本与图像区域(框)的生成和对齐。然而,这种分离式模块化设计导致了复杂性高、效率低下和任务扩展能力有限等问题。因此,本文提出了Unitab,一种针对统一图文(grounded vision-language)建模的框架,能够一体化生成文本和框,并自然表示文本与框之间的关联,从而克服传统方法的缺陷。
视觉和语言的交集研究,即视觉-语言建模,是当前人工智能的重要方向之一。传统任务中,文本生成适用于对图片整体的高层次描述,而框生成(bounding box)则用于识别图片中具体的局部区域。然而,将文本与框联合建模,以生成综合的图像理解,一直是个挑战。特别是针对“grounded captioning”等任务,要求模型不仅生成描述性文本,还要将文本中的实体与图像具体区域相对应。
已有研究通常采用多个独立模块分别生成文本、框,以及两者的对齐信息。这类方法虽然有效,但其框架复杂且依赖预先训练好的检测器,限制了任务扩展能力以及模型性能。为应对这一挑战,Unitab的设计目标是去掉独立模块,采用统一的架构,同时以一种自然方式在输出中表示文本和框的对齐。
研究旨在回答以下科学问题: 1. 是否可以在没有显式检测器的情况下,构建框与文本联合建模的单一架构? 2. 如何在序列输出中自然体现文本与框的对齐关系?
Unitab基于Transformer的编码-解码架构,能够对图像和文本联合表示,生成统一的”文本+框”编码输出序列。这一设计受Pix2Seq启发,将框预测转化为离散化的序列生成任务,而非传统的坐标回归。模型通过一个单一的Transformer解码器以自回归的方式生成令牌(token),其词汇表包含两部分:自然语言文本词和离散化的框坐标标记。
独特之处在于,Unitab引入了特殊标记<obj>与<\obj>,用来标示序列中的文本和框之间的对应关系。在生成文本相关的描写词后,切换到生成框的坐标,最后切换回文本继续生成。这种自然融入的设计使得文本与框在语义上达成一致。
目标序列(ground-truth sequence)的构造集成了文本词和框坐标的离散化表示: 1. 文本部分:基于自然语言描述,对应生成任务所需的文字内容。 2. 框部分:采用Pix2Seq的离散化方式,将每个框的四个坐标分别量化为离散标记,对齐文本的相应描述。
在训练过程中,模型优化条件语言建模目标(Conditioned Language Modeling Objective),以最大化每一步生成的令牌概率。
研究分三个阶段进行模型训练: 1. 预训练:使用包含仅文本描述及文本-框标注的大规模图文配对数据(如Flickr30K、COCO、Visual Genome等),学习通用的视觉语言表征。 2. 多任务微调:结合实际任务数据,如COCO图文描述数据、Flickr30k实体标注数据等,将模型同时训练用于多个下游任务。 3. 任务专用微调:在多任务微调的基础上,对特定任务进一步调优。
多任务微调是Unitab的核心优势之一,避免重复训练多个特定模型,降低参数规模,同时通过数据共享提升下游任务性能。
生成序列后,文本和框的提取相对简单。文本部分通过抛弃框标记获得,而框则通过解析离散标记并去量化还原为坐标形式。同时可以从<obj>与<\obj>的标记中提取明确的词框对齐信息,用于评价“grounded”任务表现。
Unitab在如下代表性任务上展示了广泛的适用性和性能提升: 1. Grounded Captioning:在Flickr30K Entities上,Unitab在描述质量的CIDEr指标上从62.5提升到69.7,F1的对齐准确度从8.44大幅提升至12.95,相较于已有研究实现显著领先。 2. Visual Grounding(语言指向的视觉定位):在RefCOCO、RefCOCO+等基准测试上,Unitab在准确率ACC@0.5整体优于包括最新模型MDETR在内的多种方法。 3. COCO图文描述任务:相比类似规模的预训练方法,CIDEr指标从117.3提升到119.8。 4. Visual Question Answering:Unitab的生成式解答方法在VQAv2上取得了与当前最优模型接近的性能。
Unitab不仅在有标签任务上表现出色,也能很好地泛化到新任务。例如,在Imagenet对象定位任务中,Unitab在完全零样本的设定下取得超越现有方法的准确度,验证了其强大的跨任务扩展能力。
本文的研究工作意义在于: 1. 实现了视觉-语言任务中文本和框输出的统一,简化了模型结构设计,提升了训练和推理的效率; 2. 提高了包括grounded captioning等任务的性能,方法更易于扩展至新的任务; 3. 引入了自然表示对齐的特殊标记<obj>,简化了输出序列设计,为未来的研究提供了新方向。
此外,Unitab框架通过多任务训练和任务不可知的输出设计,展示出在新任务上的强大迁移能力,为构建通用视觉语言系统打下了基础。
Unitab的核心创新包括: - 提出基于自回归生成的单一解码架构,同时生成文本与框; - 引入<obj>标记实现自然的词框对齐; - 多任务训练显著提高了参数效率和任务间性能传递能力; - 零样本适应性展示了未来进一步通用化研究的可能性。
这项研究将为视觉语言领域未来的发展提供有力支持。