分享自:

通过提示学习改进预训练语言模型成为持续少样本关系抽取器

期刊:LREC-COLING 2024

本文介绍的研究出自北京邮电大学网络与交换技术国家重点实验室的Shengkun Ma、Jiale Han、Yi Liang和Bo Cheng,论文题为《Making Pre-trained Language Models Better Continual Few-shot Relation Extractors》,发表在2024年5月20日至25日召开的LREC-COLING 2024学术会议上。

学术背景

本研究聚焦于自然语言处理(NLP)领域中的一个重要且具有挑战性的子任务:连续少样本关系抽取(Continual Few-shot Relation Extraction, CFRE)。关系抽取旨在从文本句子或文档中识别出实体间潜在的关系。传统方法依赖于大规模标注数据进行训练,并在固定的关系集合上进行测试。然而,现实场景中,新关系不断涌现,模型需要具备持续学习新关系的能力,同时避免遗忘旧关系,并且通常只有极少数量的标注数据可用。这种CFRE设定带来了两个核心挑战:灾难性遗忘(catastrophic forgetting)和过拟合(overfitting)。灾难性遗忘指的是模型在学习新任务时,快速丧失对先前任务所学知识的能力;而过拟合在数据稀少的少样本场景下尤为突出,模型会过度适应训练数据中的噪声或特定模式,导致泛化能力下降。

尽管已有一些方法尝试解决CFRE问题,例如通过嵌入空间正则化、外部数据增强或知识蒸馏等技术,但这些方法未能充分挖掘预训练语言模型(Pre-trained Language Models, PLMs)内部蕴含的丰富知识来有效应对上述挑战。近年来,提示学习(prompt learning)因其能有效激发PLMs潜力而在少样本学习场景中表现优异。本研究首次将提示学习技术系统地应用于CFRE任务,旨在探索PLMs的隐式能力,以同时缓解灾难性遗忘和过拟合问题,从而构建更优的连续少样本关系抽取器。本研究的目标是设计一个新颖的框架,使PLMs能够持续、高效地学习新关系,同时牢固记忆旧关系,并在低资源环境下保持强大的泛化性能。

详细工作流程

本研究提出的方法名为对比提示学习框架(Contrastive Prompt Learning framework, CPL)。整个框架分为三个核心模块:提示表示(Prompt Representation)、对比学习(Contrastive Learning)和记忆增强(Memory Augmentation)。整体训练流程分为两个主要阶段:当前任务训练(current task training)和记忆回放(memory replay)。

第一模块:提示表示 此模块旨在将下游的关系抽取任务重构为与PLMs预训练任务更相似的形式,以激活模型的通用知识。研究团队设计了一种半自动的混合提示模板(hybrid prompt template),它结合了实体信息和可学习的连续向量作为提示词。对于一个包含头实体 eh 和尾实体 et 的输入句子 x,模板构造如下:t(x) = x. [v0:n0-1] eh [vn0:n1-1] [mask] [vn1:n2-1] et [vn2:n3-1] .。其中,[vi] 是第i个可学习的连续提示向量,[mask] 是一个特殊标记,用于代表需要预测的实体间关系。这种设计避免了纯手工设计硬提示(hard prompt)需要大量领域知识的繁琐,也克服了纯软提示(soft prompt)在少数据下难以收敛的问题。模板与句子一起被编码模型(如BERT)处理,最终提取 [mask] 标记对应的隐藏层表示 m 作为该样本的关系特征表示。通过这种提示工程,模型倾向于学习更通用的任务知识,而非特定关系类别的细节,从而有助于模型识别新旧关系,缓解灾难性遗忘。

第二模块:对比学习 为了获得更具区分性的特征表示并特别关注难样本以缓解过拟合,本研究提出了一个新颖的基于间隔的对比学习(Margin-based Contrastive Learning, MCL)目标函数。与传统的对比损失不同,MCL为每个正样本对和负样本对引入了可调节的松弛因子(αi,pαi,n),这些因子由样本对间的相似度计算得出。其核心思想是让模型更关注那些相似度不高不低、难以区分的“难”样本对,同时减少对非常容易区分的“易”样本对的关注。这使得模型学习到的特征分布在表示空间中更加均匀,各类别的边界更清晰。在进行关系预测时,模型摒弃了传统的、需要额外参数的线性分类器(如softmax),而是采用了更适合增量分类任务的最近类均值(Nearest-Class-Mean, NCM)分类器。具体来说,模型使用训练后编码器提取内存中所有关系样本的特征,计算每个关系的原型(prototype,即该类所有样本特征的均值)。对于测试样本,计算其特征与所有已见关系原型的L2距离,并预测为距离最近的原型所对应的关系。

训练过程分两步进行: 1. 当前任务训练:对当前新任务 Tk 的训练集 Dktrain,使用提示模板编码后,通过编码模型提取特征,并利用MCL损失进行训练。为了在有限批量大小下获得更好的对比学习效果,研究设置了一个特征桶(bucket) Ck 来缓存当前任务已处理样本的特征,在计算每个批次的损失时,会从该桶中随机选取额外的特征来构成临时的对比特征集,从而模拟更大的批量效果。 2. 记忆回放:完成当前任务训练后,为了防止模型遗忘旧知识,会进行第二轮训练,即记忆回放。首先,需要更新记忆库。

第三模块:记忆增强 记忆增强旨在解决少样本场景下数据稀疏导致的过拟合问题,其包含两个步骤:代表性记忆采样和提示数据增强。 1. 代表性记忆采样:在完成当前任务训练后,对于该任务中的每个新关系,使用K-means算法对所有训练样本的特征进行聚类(由于是少样本设定,通常每个关系只存储一个样本,即l=1),然后选择每个聚类中最接近质心的样本作为该关系的典型样本,存入记忆库 M 中。 2. 提示数据增强:为了利用大语言模型(LLMs)强大的语言生成能力来扩充数据,本研究设计了一种精心构造的提示(prompt)来引导ChatGPT(GPT-3.5-turbo)生成多样化的新样本。对于记忆库 M 中存储的每一个历史关系,选取其一个典型样本作为示例,构造一个包含任务指令、关系语义解释(如“founded by意味着一个组织由一个人创立”)和示例的提示文本输入给ChatGPT,要求其生成指定数量(如n个)具有相同关系的新样本。生成的数据经过解析后,与原始记忆样本合并,构成一个增强后的训练集,用于上述的记忆回放训练阶段。这一策略有效地利用了外部LLMs的知识来辅助较小的PLMs,生成了更贴近真实数据分布的多样化样本,进一步对抗了过拟合。

主要结果

研究在两个广泛使用的关系抽取数据集FewRel和TACRED上进行了大量实验,评估设定为连续8个任务的少样本学习(如10-way 5-shot, 5-way 5-shot等)。

主实验结果:如表1所示,CPL框架在两个数据集上的5-shot设定中均显著超越了所有基线模型,取得了最先进的性能。例如,在TACRED数据集上,CPL比之前的最佳方法SCKD的最终任务准确率高出6.28%。值得注意的是,尽管CPL在第一个任务上的初始表现并非最高,但在后续任务中表现出极强的抗遗忘能力和泛化能力,最终准确率接近甚至在某些设定下逼近使用全部历史数据训练的“联合训练”上限。这有力地证明了CPL在同时缓解灾难性遗忘和过拟合方面的有效性。与同样采用数据增强的ERDA和SCKD相比,CPL的显著提升表明其通过LLMs生成的样本质量更高、多样性更好。与采用对比学习的CRL和CRECL相比,CPL的优越性能验证了其提出的MCL目标函数在低资源场景下更能有效缓解过拟合。

消融研究:如表2所示,研究对CPL的各个组件进行了消融实验。 * 移除提示表示模块(w.o. pro.):性能大幅下降(FewRel上最终准确率从64.50%降至51.09%),这凸显了提示学习对于激活PLMs通用知识、对抗灾难性遗忘的关键作用。 * 将MCL损失替换为普通监督对比损失(w.o. mcl):性能出现明显下降(FewRel上从64.50%降至61.78%),证明了MCL关注难样本、获得更均匀特征分布的有效性。 * 移除ChatGPT生成的数据增强(w.o. gen):性能有所下降,说明LLMs生成的数据对补充稀疏训练数据、进一步减轻过拟合具有积极作用。 * 移除所有三个组件(w.o. all):性能降至最低,接近基线水平,综合验证了每个组件的必要性及其协同效应。

进一步分析: * 提示表示分析:图3比较了不同编码模板的效果,包括实体标记法(传统方法)、硬提示、软提示和本研究的混合提示。结果显示,混合提示显著优于其他方法,表明其能够结合实体先验知识并自动学习适配任务的模板,有效激活PLMs潜力。 * 对比学习可视化:图4通过t-SNE可视化展示了使用普通监督对比损失和MCL损失后测试样本的特征分布。可以清晰看到,MCL学习到的特征空间更加均匀,不同类别的边界更清晰,特别是对于“child”和“father”这类相似关系,MCL能更好地区分,而普通对比损失则存在混淆。 * 记忆增强分析:图5探讨了生成样本数量对性能的影响。结果表明,生成一定数量的样本可以提升性能,但并非越多越好,过多可能因引入噪声而导致性能饱和甚至下降。表4和表7展示了ChatGPT生成样本的案例,研究发现,在提示中包含关系描述和示例至关重要,否则LLMs可能误解关系,生成错误样本。

结论

本研究提出了一种新颖的对比提示学习框架,通过结合提示学习、基于间隔的对比学习和基于大语言模型的记忆增强策略,成功地使预训练语言模型成为更优的连续少样本关系抽取器。该框架能够有效激活PLMs的通用知识以适应新旧关系,从而缓解灾难性遗忘;同时通过关注难样本和生成多样化数据来获得更鲁棒的特征表示,从而缓解过拟合。在两个基准数据集上的大量实验证明了CPL的卓越性能及其各个组件的有效性。这项工作为低资源场景下的持续学习问题提供了一个有前景的解决方案。

研究亮点

  1. 首创性:这是首次系统性地探索提示学习技术在连续少样本关系抽取任务中的应用,开辟了利用PLMs隐式知识解决CFRE问题的新途径。
  2. 方法创新:提出了融合提示表示、新型间隔对比学习和LLMs辅助记忆增强的集成框架。其中,设计的半自动混合提示模板和MCL目标函数是核心创新点。
  3. 显著性能提升:在标准基准测试中,CPL以较大幅度超越了现有最先进方法,特别是在缓解灾难性遗忘方面表现突出,证明了其方法的优越性。
  4. 实用性与前沿结合:巧妙地将强大的大语言模型(ChatGPT)作为数据生成器,来增强较小PLMs的训练,为解决低资源NLP任务中的数据稀疏问题提供了新颖且有效的策略。
  5. 详尽的分析验证:通过系统的消融实验、可视化分析和案例研究,从多个角度深入验证了每个模块的贡献和工作机理,增强了研究的可信度和深度。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com