UNITER：通用图像-文本表示学习

分享自：
UNITER：通用图像-文本表示学习

期刊:eccv 2020DOI:10.1007/978-3-030-58577-8_7
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
UNITER：通用视觉-语言表示学习的跨模态预训练模型
一、作者与发表信息
 本研究由Microsoft Dynamics 365 AI Research（美国雷德蒙德）的Yen-Chun Chen、Linjie Li、Licheng Yu等团队合作完成，发表于计算机视觉顶级会议ECCV 2020（European Conference on Computer Vision），收录于会议论文集LNCS 12375卷。
二、学术背景与研究目标
 1. 科学领域：研究属于多模态人工智能领域，聚焦视觉-语言联合表示学习（Vision-and-Language, V+L）。
 2. 研究动机：现有V+L任务的模型（如VQA视觉问答、图像文本检索）多为任务定制化设计，缺乏通用性。受BERT在NLP领域的启发，团队提出能否通过预训练获得跨模态的通用表示。
 3. 关键问题：传统方法存在两大局限：
 - 预训练时对图像和文本随机联合掩码（joint random masking）易导致模态间错位；
 - 缺乏显式的细粒度跨模态对齐机制（如单词与图像区域的对应关系）。
 4. 研究目标：开发一种基于Transformer的通用模型UNITER（UNiversal Image-TExt Representation），通过改进预训练任务设计，提升跨模态表示的泛化能力。
三、研究方法与流程
 1. 模型架构：
 - 输入编码：
 - 图像端：通过Faster R-CNN提取区域特征（visual features）和边界框坐标（7维向量），经全连接层投影至嵌入空间；
 - 文本端：采用BERT式词切分（wordpieces），结合词嵌入和位置编码。
 - 核心模块：多层Transformer，通过自注意力机制学习跨模态上下文表示。
预训练任务设计（关键创新）：
条件掩码建模（Conditional Masking）：
 掩码语言建模（MLM）：仅掩码文本，基于完整图像特征预测被掩单词；
 
掩码区域建模（MRM，含3种变体）：仅掩码图像区域，基于完整文本预测区域特征或语义类别。
 
图像-文本匹配（ITM）：二分类任务，判断图像-文本对是否匹配。
 
词-区域对齐（WRA）：基于最优传输理论（Optimal Transport, OT），最小化单词与图像区域的嵌入分布距离，显式优化细粒度对齐。
 
预训练数据集：
领域内数据（in-domain）：COCO（53.3万对）、Visual Genome（506万对）；
 
领域外数据（out-of-domain）：Conceptual Captions（300万对）、SBU Captions（99万对）。
 
数据清洗：剔除与下游任务重叠的图像，确保评估公平性。
实验流程：
预训练阶段：混合采样四种任务，每次更新仅优化单一任务目标；
 
下游任务适配：
 分类任务（如VQA）：取[CLS]标记的联合表示输入MLP；
 
检索任务：基于联合表示计算相似度，采用三元组损失（triplet loss）优化；
 
指代表达理解（Referring Expression）：计算区域-文本对齐得分。
 
四、主要结果与发现
 1. 预训练任务有效性验证（表2）：
 - 条件掩码的贡献：相比随机联合掩码，MLM+ITM+MRM组合的meta-sum提升3.46（399.97 vs. 396.51）；
 - WRA的增益：引入OT对齐使VQA准确率提升0.55%（72.47%→72.70%），指代表达任务提升0.29%（74.51%→74.80%）。
 - 最优组合：MLM+ITM+MRC-KL（掩码区域分类+KL散度）+MRFR（特征回归）+WRA。
下游任务性能（表3）：
全面超越SOTA：在6类任务（9个数据集）中，UNITER-large均刷新纪录，例如：
 VQA test-std：74.02%（比之前最佳+1.48%）；
 
NLVR2（自然语言视觉推理）：79.98%（比LXMBERT+5.48%）；
 
零样本图像检索（Flickr30k）：R@1达68.74%（比ViLBERT+37.88%）。
 
计算效率优势：UNITER-base参数量仅86M，性能优于参数量更大的两流模型（如ViLBERT的221M）。
 
跨任务适应性：
两阶段预训练（表4）：在VCR任务中，先预训练再针对下游数据微调，Q→AR准确率提升4.24%（53.52%→57.76%）；
 
架构微调（表5）：针对需双图像输入的NLVR2，添加双向注意力层（pair-biattn）后，准确率从73.03%提升至77.85%。
 
五、研究结论与价值
 1. 理论贡献：
 - 提出条件掩码策略，解决跨模态掩码导致的语义错位问题；
 - 首次将最优传输理论引入多模态预训练，实现可解释的细粒度对齐。
 2. 应用价值：UNITER可作为通用底座模型，支持包括视觉问答、跨模态检索、视觉推理等多样化任务，减少任务定制化开发成本。
 3. 开源意义：代码公开于GitHub（https://github.com/chenrocks/uniter），推动社区发展。
六、研究亮点
 1. 方法创新性：
 - 条件掩码与OT对齐的结合是跨模态表示学习的首创；
 - 单流Transformer设计在保持性能的同时显著降低参数量。
 2. 实验严谨性：
 - 通过15组消融实验验证预训练任务组合的合理性；
 - 严格的数据清洗流程确保评估无偏。
 3. 可扩展性：支持动态融入新模态（如视频、语音），为后续多模态大模型研究提供范式。
七、其他发现
 1. 注意力可视化（图2-3）：
 - 跨模态注意力（reversed block模式）显示模型能自动关联如“狗”与图像中的犬类区域；
 - 与人类认知一致的高解释性。
 2. 领域外数据价值：尽管领域外数据（CC+SBU）单独使用效果较差，但与领域内数据联合训练可进一步提升性能（meta-sum从400.93→405.24）。
（注：全文约2000字，严格遵循学术报告格式，涵盖研究全流程的关键细节与数据支撑。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问