分享自:

UNITER:通用图像-文本表示学习

期刊:eccv 2020DOI:10.1007/978-3-030-58577-8_7

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


UNITER:通用视觉-语言表示学习的跨模态预训练模型

一、作者与发表信息
本研究由Microsoft Dynamics 365 AI Research(美国雷德蒙德)的Yen-Chun Chen、Linjie Li、Licheng Yu等团队合作完成,发表于计算机视觉顶级会议ECCV 2020(European Conference on Computer Vision),收录于会议论文集LNCS 12375卷。

二、学术背景与研究目标
1. 科学领域:研究属于多模态人工智能领域,聚焦视觉-语言联合表示学习(Vision-and-Language, V+L)。
2. 研究动机:现有V+L任务的模型(如VQA视觉问答、图像文本检索)多为任务定制化设计,缺乏通用性。受BERT在NLP领域的启发,团队提出能否通过预训练获得跨模态的通用表示。
3. 关键问题:传统方法存在两大局限:
- 预训练时对图像和文本随机联合掩码(joint random masking)易导致模态间错位;
- 缺乏显式的细粒度跨模态对齐机制(如单词与图像区域的对应关系)。
4. 研究目标:开发一种基于Transformer的通用模型UNITER(UNiversal Image-TExt Representation),通过改进预训练任务设计,提升跨模态表示的泛化能力。

三、研究方法与流程
1. 模型架构
- 输入编码
- 图像端:通过Faster R-CNN提取区域特征(visual features)和边界框坐标(7维向量),经全连接层投影至嵌入空间;
- 文本端:采用BERT式词切分(wordpieces),结合词嵌入和位置编码。
- 核心模块:多层Transformer,通过自注意力机制学习跨模态上下文表示。

  1. 预训练任务设计(关键创新):

    • 条件掩码建模(Conditional Masking):
      • 掩码语言建模(MLM):仅掩码文本,基于完整图像特征预测被掩单词;
      • 掩码区域建模(MRM,含3种变体):仅掩码图像区域,基于完整文本预测区域特征或语义类别。
    • 图像-文本匹配(ITM):二分类任务,判断图像-文本对是否匹配。
    • 词-区域对齐(WRA):基于最优传输理论(Optimal Transport, OT),最小化单词与图像区域的嵌入分布距离,显式优化细粒度对齐。
  2. 预训练数据集

    • 领域内数据(in-domain):COCO(53.3万对)、Visual Genome(506万对);
    • 领域外数据(out-of-domain):Conceptual Captions(300万对)、SBU Captions(99万对)。
    • 数据清洗:剔除与下游任务重叠的图像,确保评估公平性。
  3. 实验流程

    • 预训练阶段:混合采样四种任务,每次更新仅优化单一任务目标;
    • 下游任务适配
      • 分类任务(如VQA):取[CLS]标记的联合表示输入MLP;
      • 检索任务:基于联合表示计算相似度,采用三元组损失(triplet loss)优化;
      • 指代表达理解(Referring Expression):计算区域-文本对齐得分。

四、主要结果与发现
1. 预训练任务有效性验证(表2):
- 条件掩码的贡献:相比随机联合掩码,MLM+ITM+MRM组合的meta-sum提升3.46(399.97 vs. 396.51);
- WRA的增益:引入OT对齐使VQA准确率提升0.55%(72.47%→72.70%),指代表达任务提升0.29%(74.51%→74.80%)。
- 最优组合:MLM+ITM+MRC-KL(掩码区域分类+KL散度)+MRFR(特征回归)+WRA。

  1. 下游任务性能(表3):

    • 全面超越SOTA:在6类任务(9个数据集)中,UNITER-large均刷新纪录,例如:
      • VQA test-std:74.02%(比之前最佳+1.48%);
      • NLVR2(自然语言视觉推理):79.98%(比LXMBERT+5.48%);
      • 零样本图像检索(Flickr30k):R@1达68.74%(比ViLBERT+37.88%)。
    • 计算效率优势:UNITER-base参数量仅86M,性能优于参数量更大的两流模型(如ViLBERT的221M)。
  2. 跨任务适应性

    • 两阶段预训练(表4):在VCR任务中,先预训练再针对下游数据微调,Q→AR准确率提升4.24%(53.52%→57.76%);
    • 架构微调(表5):针对需双图像输入的NLVR2,添加双向注意力层(pair-biattn)后,准确率从73.03%提升至77.85%。

五、研究结论与价值
1. 理论贡献
- 提出条件掩码策略,解决跨模态掩码导致的语义错位问题;
- 首次将最优传输理论引入多模态预训练,实现可解释的细粒度对齐。
2. 应用价值:UNITER可作为通用底座模型,支持包括视觉问答、跨模态检索、视觉推理等多样化任务,减少任务定制化开发成本。
3. 开源意义:代码公开于GitHub(https://github.com/chenrocks/uniter),推动社区发展。

六、研究亮点
1. 方法创新性
- 条件掩码与OT对齐的结合是跨模态表示学习的首创;
- 单流Transformer设计在保持性能的同时显著降低参数量。
2. 实验严谨性
- 通过15组消融实验验证预训练任务组合的合理性;
- 严格的数据清洗流程确保评估无偏。
3. 可扩展性:支持动态融入新模态(如视频、语音),为后续多模态大模型研究提供范式。

七、其他发现
1. 注意力可视化(图2-3):
- 跨模态注意力(reversed block模式)显示模型能自动关联如“狗”与图像中的犬类区域;
- 与人类认知一致的高解释性。
2. 领域外数据价值:尽管领域外数据(CC+SBU)单独使用效果较差,但与领域内数据联合训练可进一步提升性能(meta-sum从400.93→405.24)。


(注:全文约2000字,严格遵循学术报告格式,涵盖研究全流程的关键细节与数据支撑。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com