分享自:

我们是否仍应使用掩码语言模型预训练编码器?

期刊:ICLR

掩码语言建模是否仍是编码器预训练的最佳选择?一项关于预训练目标对文本表征性能影响的大规模对照研究

本研究由来自 Artefact Research Center、Diabolocom、TransPerfect、Cohere、MICS (CentralesSupélec, Université Paris-Saclay)、Instituto de Telecomunicações 以及 Instituto Superior Técnico & Universidade de Lisboa (Lisbon ELLIS Unit) 等多个机构的 Hippolyte Gisserot-Boukhelf、Nicolas Boizard、Manuel Faysse、Duarte M. Alves、Emmanuel Malherbe、André F. T. Martins、Céline Hudelot 和 Pierre Colombo 共同完成。该研究以会议论文的形式发表在第12届国际学习表征会议(International Conference on Learning Representations, ICLR 2026)上。

一、 研究背景

这项研究属于自然语言处理领域,具体聚焦于文本表示学习这一核心方向。学习高质量的文本表示(text representation)是众多自然语言处理任务的基础,例如序列分类、命名实体识别、抽取式问答和信息检索。传统上,编码器模型的预训练几乎完全依赖于掩码语言建模(Masked Language Modeling, MLM),如BERT模型所采用的方法。然而,近年来的研究表明,使用因果语言建模(Causal Language Modeling, CLM,即自回归的下一个词预测)预训练的纯解码器模型,在后续通过MLM等手段进行调整后,可以作为高效的编码器使用,并在文本表示基准(如MTEB)上取得优于传统MLM编码器的成绩。

一个核心问题随之产生:这些性能提升是源于CLM方法本身的固有优势,还是仅仅来自于模型规模、数据量等混杂因素?目前,相关研究主要在远超典型编码器规模的超大模型上进行,这导致无法清晰区分上述影响。因此,本研究旨在通过一系列大规模、严格控制变量的预训练消融实验,系统地探究CLM与MLM这两种预训练目标,对于从零开始训练或从已有模型继续训练不同规模的编码器模型时,在文本表示任务上的影响。研究目标在于明确MLM是否依然是训练高质量编码器的必要且最优选择,并探索更高效、更具优势的预训练策略。

二、 研究流程详述

本研究设计严谨,流程复杂,通过对比不同预训练范式、模型规模和超参数设置下的性能,来解答研究问题。具体流程包括以下几个主要步骤:

1. 模型与数据集准备: 研究采用了与EuroBERT模型相似的架构,训练了三种参数规模(210M、610M、1B)的Transformer编码器模型。所有模型共享最大上下文长度2048 token、RoPE位置编码等配置。预训练数据统一使用英文FineWeb-edu数据集,以确保所有模型在训练过程中接触到完全相同的样本序列,从而公平比较。下游评估任务广泛覆盖了四大类文本表示任务:序列分类(SC,使用SST-2、MNLI、QQP)、令牌分类(TC,使用CoNLL、OntoNotes、UNER)、问答(QA,使用SQuAD、SQuAD-v2、ReCoRD)和信息检索(IR,使用MS MARCO、NQ、MLDR)。

2. 预训练范式与设置: 研究定义了三种核心预训练范式:纯CLM(因果掩码)、纯MLM(双向掩码)以及两阶段CLM+MLM(先CLM后MLM)。对于MLM,系统性地探索了不同的掩码率(20%、30%、40%、50%)。研究模拟了两种现实场景: - 从零开始预训练(Pretraining From Scratch, PFS): 模型从随机初始化开始,使用固定总步数(42,000步,对应约100B token)进行训练。对于CLM+MLM模型,则在训练一定步数后从CLM检查点切换至MLM目标继续训练。 - 持续预训练(Continued Pretraining, CPT): 训练从一个已经预训练好的CLM或MLM模型(称为“基础模型”)开始,然后继续使用MLM目标进行额外步数的训练。这模拟了利用现有大语言模型(通常是CLM训练的)进行微调或适配的场景。

所有预训练采用统一的超参数设置,如学习率、批大小等,以控制变量。研究特别强调了实验的规模:总共训练了38个模型,进行了超过15,000次微调和评估运行,总计消耗了约110,000 MI250X GPU小时,以确保结论的统计可靠性。

3. 微调与评估协议: 为了进行公平的下游任务评估,所有预训练好的模型在特定任务数据集上进行微调。微调过程采用一致的协议:每个模型在特定数据集上使用网格搜索寻找最佳学习率,并在多个随机种子下重复运行(通常为5次),以控制微调的不稳定性。评估指标根据任务类型选择,如准确率、F1分数、NDCG@10等。最终报告的是多次运行的平均性能及置信区间。

4. 分析方法: 研究的核心分析方法是基于大规模实验的横向与纵向比较。横向比较包括:在不同模型大小下对比CLM与MLM的性能;在不同掩码率下对比MLM的性能;对比不同CLM/MLM步数分配比例在PFS设置下的效果。纵向分析包括:观察CLM和MLM模型在预训练不同阶段(如10k、20k、40k步)的数据效率;分析从不同基础模型(CLM或MLM)开始进行CPT后,性能随CPT步数的变化趋势。通过这种多维度的对照分析,研究者能够剥离模型规模、数据量等因素,直接评估预训练目标的影响。

三、 主要研究结果

1. MLM与CLM的直接比较: 总体而言,在多数文本表示任务上,纯MLM预训练优于纯CLM预训练。如图2和图4所示,这种优势在序列分类(SC)和问答(QA)任务上尤为明显,且随着模型规模增大,SC任务上的差距有扩大趋势。这表明双向上下文注意力对于理解句子含义和回答需要上下文推理的问题至关重要。 然而,CLM模型也展现出独特的优势:a) 在信息检索(IR)任务上,CLM表现不俗,尤其在大模型上(1B)与MLM差距很小。b) 在令牌分类(TC)任务上,CLM表现与MLM相当,甚至在610M模型上明显优于MLM。这说明CLM预训练能够产生强大的令牌级表示。c) 数据效率更高: 在训练早期(例如前10,000步),CLM模型的下游性能普遍优于同阶段的MLM模型,表明CLM能更快地学习到有用的表示。d) 微调更稳定: 如图5所示,CLM预训练的模型在微调时对学习率的选择更不敏感,表现出更好的鲁棒性,减少了超参数调优的成本。

2. 掩码率的影响: 研究发现,不存在一个适用于所有任务和模型大小的“最优”掩码率。如图3所示,最佳掩码率取决于模型规模和下游任务类型。例如,IR任务普遍偏好更高的掩码率,而TC任务在较小模型上则偏好较低的掩码率。对于610M和1B模型,TC任务的性能与掩码率的关系呈U型曲线(低和高掩码率效果更好)。这说明了MLM预训练是一个需要精心权衡的设计选择。

3. 两阶段CLM+MLM预训练(PFS)的效果: 基于CLM数据效率高的发现,研究者探索了先进行CLM预训练,再进行MLM预训练的两阶段策略。如图6所示,在固定的总计算预算下(例如12k、22k、42k步),将部分预算分配给初始的CLM阶段,通常能获得比纯MLM训练更好的下游性能。最优的分配比例大约是总步数的25%用于CLM,75%用于MLM。即使CLM阶段占比高达75%,其性能也与纯MLM基线相当。这证明了两阶段策略能有效结合CLM的数据效率优势和MLM的最终性能优势。此外,如图7所示,经过CLM初始化后再进行MLM训练的模型,其性能对不同MLM掩码率的敏感性也低于纯MLM训练的模型,表明这种策略更具鲁棒性。

4. 在CLM预训练模型上持续进行MLM训练(CPT)的效果: 这是最具实际应用价值的发现之一。如图8和图9所示,从一个已经预训练好的CLM模型(如公开的大语言模型)出发,进行相对较少步数(如12,000步或更少)的MLM持续训练,其最终性能超越了从一个同等规模和数据的MLM基础模型出发,进行相同步数MLM持续训练的结果。经过CPT的CLM模型在所有任务类别上都表现出色:在TC上保持了CLM的优势,在QA和IR上追平甚至超越了MLM模型,在SC上则显著优于纯MLM模型。相比之下,对MLM模型进行MLM-CPT的收益较小,性能提升趋于平缓。这表明,利用广泛可得的、经过大规模CLM预训练的模型作为起点,再进行MLM适配,是目前获取高性能编码器模型最高效、最有效的途径

四、 结论与价值

本研究通过大规模对照实验,对编码器预训练的传统范式提出了重要挑战。主要结论如下:

  1. MLM并非唯一最优解: 尽管MLM在大多数任务上能提供稳健的最终性能,但CLM预训练在数据效率、微调稳定性和特定任务(如TC、IR)上具有独特优势。
  2. 两阶段训练策略有效: 从零开始预训练时,采用“先CLM后MLM”的序贯训练策略,在固定计算预算下能取得比纯MLM更优的性能。
  3. 实用最佳路径: 在持续预训练场景下,最佳实践是利用现成的大规模CLM预训练模型(如GPT、Llama等解码器模型)作为初始化,然后通过相对廉价的MLM训练进行适配。这为构建顶尖的编码器模型提供了一条“成本打折”的高效路径。

科学价值: 本研究系统地澄清了预训练目标(CLM vs. MLM)对文本表示学习的影响,剥离了规模因素的干扰,为理解不同预训练目标的机理提供了坚实的实证基础。它挑战了“MLM是编码器预训练唯一正确方式”的固有观念,揭示了CLM在表示学习中的潜在价值。 应用价值: 研究结果为工业界和学术界训练高效的文本表示模型提供了清晰的指南。特别是“利用CLM模型进行MLM适配”的结论,具有极大的实践意义,能够显著降低训练高性能编码器所需的数据和计算成本,推动更强大、更易得的文本嵌入模型的发展。

五、 研究亮点

  1. 大规模、高控制的实验设计: 研究通过统一架构、统一数据、统一超参数,并覆盖多种模型规模、掩码率和训练步数,进行了极为严格的对照实验,确保了结论的可信度。
  2. 对现实场景的深入模拟: 不仅比较了从零开始的训练,还重点研究了持续预训练这一贴合实际应用(利用现有大模型)的场景,得出了具有高度指导意义的结论。
  3. 数据驱动的深入洞见: 研究不仅回答了“哪个更好”的问题,还深入揭示了“为什么”以及“在什么条件下更好”,例如CLM的数据效率、掩码率与模型/任务的复杂关系、两阶段策略的优势来源等。
  4. 丰富的资源开放: 作者团队承诺并已发布所有预训练模型检查点、训练和评估代码库,极大促进了该领域的可复现性和后续研究。

六、 其他有价值内容

研究也指出了自身的局限性,例如固定了架构、分词器和语言(英语),未探索多语言或多模态场景,模型规模上限为1B参数(虽然已覆盖主流编码器范围),也未涉及对比学习后训练等。这些均为未来的研究工作指明了方向。此外,研究中观察到的一些现象(如TC任务上掩码率与性能的U型曲线关系)背后的机理仍有待进一步的理论探索。最后,论文包含了详尽的附录,提供了模型架构细节、数据集描述以及所有实验的详细数据表格,体现了研究的严谨与透明。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com