通过简单的序列到序列学习框架统一架构、任务和模态

分享自：
通过简单的序列到序列学习框架统一架构、任务和模态

期刊:Proceedings of the 39th International Conference on Machine Learning
学术报告：《OFA：通过简单的序列到序列学习框架统一架构、任务和模态》第一部分：作者及发表信息本文的主要作者包括 Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou 和 Hongxia Yang，作者所属机构为中国阿里巴巴达摩院（Damo Academy, Alibaba Group, China）。该研究发表于 2022 年在《Proceedings of the 39th International Conference on Machine Learning (ICML)》上，这是一个高度专业的国际学术会议，展示了机器学习领域的顶尖研究。
第二部分：研究背景该研究以人工智能（Artificial Intelligence）和机器学习（Machine Learning）的一个重要目标为背景：构建一个全能模型（Omni-Model），旨在能够处理众多不同类型的任务和多模态数据（Multimodal Data）。目前，深度学习中的预训练技术已获得了显著的进展，尤以Transformer架构（Vaswani et al., 2017）的表现最为突出。在自然语言处理（NLP）领域，诸如 BERT（Devlin et al., 2019）、GPT（Radford et al., 2018）等模型已经展示了通过预训练和微调（Pretrain-Finetune Paradigm）取得出色任务泛化能力的潜力。而在视觉与语言的融合研究（Vision-Language Models）中，研究者也一直致力于利用大规模跨模态数据集训练统一模型，例如 CLIP 和 SimVLM 等。
然而，现有模型在以下方面存在显著局限：1）需要复杂的任务或模态特定的定制化结构，限制了模型的通用性；2）难以统一任务表征，不同任务通常依赖不同的训练目标，这增加了扩展任务规模的难度；3）模态的输入特征（例如，视觉模型通常需要额外的对象检测器）和特定任务关联过高，导致模型在开放领域适应性较差。针对这些问题，本文作者提出了一个名为 OFA 的解决方案，其全名为 “One For All”，通过构建一个序列到序列（Sequence-to-Sequence, Seq2Seq）学习框架，力求统一架构、任务和模态，解决现有方法的痛点。
主要研究目标包括： 1. 提出一个任务不敏感（Task-Agnostic）、模态不敏感（Modality-Agnostic）的统一框架。 2. 实现跨模态（例如图像生成、视觉定位）和单模态（例如图像分类、语言建模）的任务统一。 3. 在较小规模（仅20M图文对）的数据集上达到与其他大规模模型相媲美甚至超越的性能。
第三部分：研究流程本研究的研究流程包括以下环节：
1. 模型架构和输入/输出设计OFA 的整体架构基于 Transformer，并采用了标准的编码器-解码器（Encoder-Decoder）框架。模型输入和输出被设计为通用的离散表示，文本、图像及对象的特征被统一到一个共享词汇空间（Unified Vocabulary）。具体地： - 图像特征表示采用 ResNet 提取图像块特征（Patch Features），并通过离散化技术（例如VQ-VAE）将图像映射为离散代码序列。 - 文本部分使用字节对编码（Byte Pair Encoding, BPE）技术分子词单元化，并将这些子单元嵌入到词向量。 - 模态间共享一个全局多模态词汇表，使得模型无需依赖额外的任务或模态特定结构。
此外，该架构在实现过程中加入了一些优化，例如位置嵌入（Position Encoding）采用了 1D 和 2D 绝对与相对位置偏置的结合策略，用于分别处理文本和图像。
2. 预训练任务设计作者设计了7类跨模态和单模态预训练任务，这些任务均被统一为序列到序列生成任务： - 视觉与语言任务： - 视觉定位（Visual Grounding, VG）：根据文本描述生成图像区域的定位坐标。 - 基于区域描述生成（Grounded Captioning, GC）：根据指定图像区域生成文本描述。 - 图文匹配（Image-Text Matching, ITM）：判断一对图文是否匹配，并生成“是”或“否”答案。 - 图像描述生成（Image Captioning, IC）：生成给定图像的描述文本。 - 视觉问答（Visual Question Answering, VQA）：根据图像与问题生成正确答案。 - 视觉任务： - 图像填补（Image Infilling）：填补图像中被遮挡部分的特征代码。 - 目标检测（Object Detection）：生成图像中目标的类别及其位置描述。 - 语言任务： - 文本填补（Text Infilling）：基于上下文生成被遮掩的文本。
上述任务的统一性通过预设任务指令（Instruction）表征进一步得以实现。例如，视觉定位任务的指令是“文本描述的区域位置在哪？”；而图像描述任务则是“这幅图像描述了什么？”。
3. 数据集构建为了支持预训练，作者构建了多模态、视觉和语言数据集： - 多模态数据：约1400万对图文对，来源包括 CC12M、COCO Caption、Visual Genome 等。 - 视觉数据：包含3600万张原始图像（用于图像填补）及约300万张带目标标签的图像（用于目标检测），来源包括 OpenImages 和 Object365。 - 语言数据：约140GB纯文本数据，来自公开来源如 Pile 数据集。
4. 训练与推理策略训练中采用交叉熵损失进行优化，推理阶段针对分类任务还加入基于前缀树（Prefix Trie）的搜索策略以提升效率和准确性。
第四部分：研究结果本研究在多模态理解与生成任务上都达到了当前最新的性能（State-Of-The-Art, SOTA）。
1. 跨模态任务表现在视觉问答任务 VQA 上，OFA 的完整模型在 VQA 测试集上达到了 82.0 的准确率，比之前的最佳模型 SimVLM 提升了 1.7。
在视觉蕴含任务 SNLI-VE 上，OFA 测试集准确率达到了 91.2，同样大幅领先其他模型。
2. 图像描述生成任务在 MSCOCO 数据集上，OFA 在 CIDEr 指标上达到了 154.9（经过 CIDEr 优化后），超越之前的 SOTA 模型 SimVLM（143.3）。
3. 视觉定位任务在 RefCOCO 系列数据集上，OFA 比之前的 SOTA 模型 Unicorn 提高了 3.61 到 6.65 个百分点。
4. 单模态任务表现OFA 不仅在多模态任务上表现出色，还在单模态任务，如 ImageNet 图像分类和自然语言理解/生成任务（GLUE 基准测试和 Gigaword 文本摘要）上具有竞争力。
5. 零样本学习与任务迁移通过任务指令引导，OFA 能够在未见过的任务和域上实现令人满意的表现，如未见领域的视觉问答任务或用户设计的新任务“基于区域的问答”。
第五部分：研究的意义与价值OFA 的全能性（One-For-All）框架实现了架构、任务和模态的统一，填补了现有多模态预训练模型在高任务复杂性、零样本学习和易用性上的空白。它为未来跨模态 AI 系统的研发提供了坚实的技术框架和实验数据支持。特别是在图像描述生成、视觉问答和跨领域迁移上的性能提升，展示了该模型在实际应用中的巨大潜力，例如自动生成图像描述、基于图片的自动化决策生成等。
第六部分：研究亮点创新性：首次系统性地将多模态和单模态任务纳入统一的序列到序列学习框架。
资源效率：相比依赖大规模数据集的现有模型，如 CLIP（400M图文对）与 SimVLM（18亿图文对），OFA 仅使用了2000万图文对数据却实现了更高的性能。
特殊设计：基于任务指令的学习模式，使得任务扩展和零样本推理成为可能。
综合性：同时支持多模态任务和单模态任务，并显著提升了模型的一体化能力。
OFA 的提出不仅提供了理论和技术上的创新，还将进一步推动人工智能领域的多模态和通用模型研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问