本文档介绍了一种名为DeBERTa(解码增强型 BERT 与解耦注意力)的新型预训练语言模型架构。这项研究由彭程(Pengcheng He)、肖东(Xiaodong Liu)、高剑峰(Jianfeng Gao)和陈伟柱(Weizhu Chen)共同完成,他们分别来自微软 Dynamics 365 AI 和微软研究院。该研究论文于2021年发表在ICLR(International Conference on Learning Representations)会议上。
学术背景 本研究属于自然语言处理领域,特别是在基于Transformer架构的预训练语言模型方向。自BERT、RoBERTa等模型取得巨大成功后,研究者们持续探索如何进一步提高模型效率和性能。已有研究表明,单词间的注意力权重不仅取决于其内容,也与其相对位置密切相关。同时,在预测掩码词时,绝对位置信息也至关重要。基于此背景,本研究旨在改进BERT和RoBERTa模型,通过引入两种新颖技术来提升模型在自然语言理解和生成任务上的性能与预训练效率。
研究流程详述 本研究主要包含模型架构设计、预训练、下游任务微调及性能评估三大流程。
1. 模型架构设计与核心创新 DeBERTa的核心是两项创新:解耦注意力机制和增强型掩码解码器。 * 解耦注意力机制: 与BERT等模型将词嵌入(content embedding)和位置嵌入(position embedding)简单相加不同,DeBERTa使用两个独立的向量分别表示每个词的内容和相对位置。计算词i和词j之间的注意力分数时,使用了四个解耦的矩阵运算:内容到内容、内容到位置、位置到内容、位置到位置。在实现中,作者发现位置到位置项提供的信息有限,因此予以移除。这一机制的关键在于同时考虑了内容到位置和位置到内容项,从而更完整地建模了词对间的依赖关系。研究还提出了一种高效实现算法,将空间复杂度从O(n²d)降低到O(kd),其中n为序列长度,k为最大相对距离(实验中设为512)。 * 增强型掩码解码器: 在标准的掩码语言模型预训练任务中,DeBERTa不仅使用上下文词的内容和相对位置信息,还显式地引入了绝对位置信息。与BERT将绝对位置嵌入加在输入层不同,DeBERTa在所有Transformer层之后、预测掩码词的Softmax层之前,才将绝对位置嵌入整合进去。这样,模型在所有层中都专注于学习相对位置信息,仅在最终解码时使用绝对位置作为补充信息。这种设计被证明比BERT的早期整合方式更有效,作者推测早期整合可能不利于模型充分学习相对位置信息。
此外,在模型微调阶段,研究者提出了一种新的虚拟对抗训练方法——尺度不变微调(Scale-invariant Fine-Tuning, SiFT)。该方法受到层归一化启发,将扰动施加在归一化的词嵌入向量上,提高了大规模模型微调的稳定性。在实验中,SiFT主要应用于拥有15亿参数的DeBERTa模型在SuperGLUE任务上的微调。
2. 预训练与模型规模扩展 * 预训练设置: 研究按照BERT-Large的设置进行了模型预训练,但使用了GPT-2/RoBERTa的BPE词表。预训练数据包含Wikipedia、BookCorpus、OpenWebText和Stories,总计约78GB(经过去重处理后)。使用96个V100 GPU进行了约100万步的训练,批次大小为2048。为了对比分析,研究也训练了参数规模与BERT-Base/Large相当的基础模型和大模型。 * 模型扩展: 为了探索模型规模扩大的效果,研究者构建了一个超大规模模型DeBERTa1.5B,包含48层Transformer,隐藏层维度为1536,总参数量达15亿。在构建该模型时,采用了进一步的优化:1)在所有注意力层共享相对位置嵌入和内容嵌入的投影矩阵,以减少参数量;2)在第一个Transformer层旁增加了一个卷积层,用于引入子词编码的n-gram知识,其输出与Transformer层输出相加后送入下一层。
3. 评估与分析 研究在两个层面进行了全面的评估: * 性能评估: 在多个自然语言理解和生成基准测试上对比了DeBERTa与当时的主流模型,包括GLUE(8个任务)、SQuAD(v1.1和v2.0)、RACE、MNLI、SWAG、CoNLL-2003 NER、SuperGLUE以及文本生成任务WikiText-103。对于不同规模的模型(Base, Large, 1.5B)均进行了评估。 * 消融研究: 为了量化各个组件的贡献,研究者设计了多个DeBERTa变体进行对比,包括:移除增强型掩码解码器、移除内容到位置项、移除位置到内容项等。此外,还研究了预训练效率(通过记录不同训练步数下模型的性能曲线)和模型不同扩展策略的效果。
主要结果详述 1. 与同类规模模型的对比结果 * 在GLUE基准上: 与RoBERTa-Large相比,仅使用约一半训练数据(20亿 vs 40亿样本)的DeBERTa-Large在8个任务上全面超越前者,平均得分从88.82%提升至90.00%。在MNLI、RTE、CoLA等任务上取得了显著提升。 * 在其他NLU任务上: DeBERTa-Large在SQuAD v2.0(F1得分90.7%)、RACE(准确率86.8%)等任务上均优于BERT、RoBERTa、XLNet、ALBERT等同类规模模型。即使在参数规模大3倍的Megatron 1.3B模型面前,DeBERTa-Large仍在多数任务上表现更优。 * 基础模型表现: DeBERTa-Base同样显著优于RoBERTa-Base和XLNet-Base,表明其架构优势在不同规模下均能体现。 * 文本生成任务: 通过调整自注意力掩码为三角矩阵,DeBERTa可以用于自回归语言建模。在WikiText-103数据集上,DeBERTa-Base的困惑度(perplexity)从RoBERTa-Base的21.6降至19.5,证明了其在NLG任务上的潜力。
2. 消融研究结果 消融研究清晰地证明了各核心组件的必要性: * 移除增强型掩码解码器(-EMD)导致在RACE任务上性能下降1.4%,在SQuAD v2.0上下降1.2%。 * 移除内容到位置项(-C2P)或位置到内容项(-P2C)均会导致在所有基准测试上的性能下滑。 * 同时移除两个组件会造成更大幅度的性能损失。这验证了同时利用内容和位置信息进行双向解耦注意力计算的重要性。
3. 超大规模模型(DeBERTa 1.5B)的突破性成果 这是本研究最引人注目的成果之一。单个DeBERTa 1.5B模型在SuperGLUE基准测试上的宏观平均得分达到了89.9%,首次超越了人类基线(89.8%)。而集成后的DeBERTa模型得分高达90.3%,在2021年1月6日位居SuperGLUE排行榜首位。相比之下,参数量高达110亿的T5模型在SuperGLUE上的得分为89.3%。这意味着DeBERTa以十分之一的参数量,实现了更优的性能,在能效和部署便利性上具有巨大优势。
结论与研究价值 本研究提出了DeBERTa模型架构,通过解耦注意力机制和增强型掩码解码器两大创新,显著提升了预训练语言模型的效率与性能。实验证明,DeBERTa在更少的预训练数据下,就能超越之前同等规模的SOTA模型。更重要的是,将模型规模扩展到15亿参数后,其单一模型在极具挑战性的SuperGLUE基准上首次超过了人类表现,这是迈向通用人工智能的一个重要里程碑。
该研究的科学价值在于: 1. 理论创新: 提出了一种新颖的、更符合语言学直觉的注意力机制,深化了对Transformer中位置信息编码方式的理解。 2. 方法创新: 增强了预训练目标(MLM)的解码过程,为如何在预训练中更有效地融合不同类型的信号(相对位置、绝对位置)提供了新思路。 3. 性能标杆: 建立了当时NLP领域新的性能标杆,特别是在模型效率(用更少数据和参数达到更好效果)方面表现出色。
其应用价值在于:高效的模型架构为开发更强大、更实用的NLP系统提供了基础,尤其是在资源受限或对推理成本敏感的场景下。
研究亮点 1. 开创性超越: DeBERTa 1.5B是首个在SuperGLUE基准上超越人类宏观平均成绩的单模型,具有里程碑意义。 2. 高效架构: 解耦注意力机制设计巧妙,在提升性能的同时保持了计算和空间效率(通过高效实现)。 3. 解码层创新: 增强型掩码解码器的设计(后期整合绝对位置)直观且有效,与早期整合方式相比有显著优势,这一发现对后续模型设计有启发性。 4. 全面验证: 研究不仅进行了广泛的性能对比,还通过严谨的消融实验、效率分析和模型可视化(注意力模式图)深入验证了各组件的作用,使结论非常坚实。
其他有价值内容 * 研究者探索了用替换词检测目标替代MLM目标,得到了DeBERTaRTD模型。实验显示DeBERTaRTD-Large仅用1/3的参数就达到了与DeBERTa 1.5B相当的性能,展现了该框架在参数效率方面的巨大潜力。 * 论文附录中提供了丰富的细节,包括预处理数据集对比、超参数设置、注意力模式可视化等,对复现研究和进一步探索具有很高参考价值。