分享自:

使用标签提示丢弃改进少样本关系抽取

期刊:proceedings of the 2022 conference on empirical methods in natural language processing

本文档属于类型a,即报告一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


基于标签提示丢弃(Label Prompt Dropout)的小样本关系抽取方法研究

作者与机构
本研究的作者为Peiyuan Zhang和Wei Lu,来自新加坡科技设计大学(Singapore University of Technology and Design)的StatNLP研究组。研究成果发表于2022年12月的《Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing》(EMNLP 2022),论文标题为《Better Few-Shot Relation Extraction with Label Prompt Dropout》。

学术背景
小样本关系抽取(Few-Shot Relation Extraction, FSRE)是自然语言处理(NLP)领域的重要任务,旨在通过极少量训练样本学习识别实体间的关系。传统方法依赖大规模监督训练,但在面对新关系时表现不佳。近年来,研究者发现文本标签(如关系名称和描述)对学习类别表示具有显著帮助,但如何高效利用这些标签仍是未解难题。现有方法通常假设文本标签在训练和预测阶段始终存在,而本研究提出了一种创新方法——标签提示丢弃(Label Prompt Dropout, LPD),通过随机丢弃标签描述以优化类别表示,从而提升小样本关系抽取性能。

研究流程与方法
1. 问题定义与模型设计
- 研究将FSRE任务定义为元学习问题,每个实例由上下文句子、实体位置和标签(文本标签与数值标签)组成。
- LPD的核心思想是将文本标签(如关系描述)与上下文句子直接拼接,作为输入传递给Transformer编码器。文本标签作为“提示”(prompt)引导模型生成标签感知的关系表示。
- 关键创新点:在训练阶段随机丢弃标签提示(概率为α),迫使模型同时学习利用和不利用标签信息的能力,增强鲁棒性。

  1. 预训练与对比学习

    • 预训练阶段采用对比学习框架,基于知识图谱(Wikidata)构建正负样本对。例如,若两个句子中的实体对在知识图谱中属于同一关系,则视为正样本。
    • 预训练数据分为原始版(Wikipedia)和过滤版(Wikipedia-filtered),后者剔除与测试集(FewRel 1.0)重叠的关系类型以避免“知识泄漏”。
    • 预训练损失函数结合对比损失(L_cp)和掩码语言建模损失(L_mlm),优化模型对标签提示的利用能力。
  2. 训练与测试流程

    • 训练阶段:对支持集实例随机丢弃标签提示(α_train=0.4或0.8),查询集则不提供标签提示。模型通过计算查询实例与类别原型(支持实例表示的平均)的相似度进行分类。
    • 测试阶段:保留所有支持集的标签提示(α_test=0),生成“提示引导的原型”,提升分类准确性。
    • 技术细节:使用BERT-base作为编码器,实体标记(如[e1]、[e2])用于定位实体位置,关系表示由实体标记的最终层表示拼接而成。

主要结果
1. 性能提升
- 在FewRel 1.0测试集上,LPD在10-way-1-shot任务中达到96.66%准确率,较基线模型HCRP提升2.69%。
- 在FewRel 2.0(生物医学领域)的跨域测试中,LPD表现优于对比模型CP,验证其泛化能力。

  1. 消融实验验证

    • 标签提示丢弃率α的影响:当α_pre-train=0.6时性能最优,过高或过低均导致性能下降,证实适度丢弃的必要性。
    • 预训练数据量分析:LPD需大量关系类型(而非实例数量)以充分学习标签提示的利用能力,过滤版数据(598类)仍能保持高性能。
  2. 与现有方法的对比

    • 相比HCRP等复杂结构模型,LPD通过简单拼接和丢弃机制实现更优性能,证明标签提示直接引导的有效性。
    • 发现“知识泄漏”问题:原始预训练数据因包含测试集关系类型,导致部分模型性能虚高,过滤后LPD仍显著领先。

结论与价值
1. 科学意义
- 提出标签提示丢弃(LPD)这一简单而高效的方法,通过动态调整标签信息输入,平衡模型对标签和上下文信息的依赖。
- 揭示了预训练数据与测试集关系重叠对评估结果的潜在影响,推动FSRE领域更严谨的实验设计。

  1. 应用价值
    • LPD可扩展至其他小样本文本分类任务(如意图识别),其“提示引导”框架为利用预训练语言模型的隐含知识提供了新思路。
    • 开源代码(GitHub)便于社区复现和应用。

研究亮点
1. 方法创新性
- 首次将“丢弃”机制应用于标签提示,融合了Dropout与Prompt的思想,兼具正则化与知识引导作用。
- 直接拼接标签与句子的输入设计,避免了传统Prompt方法需固定模板的限制。

  1. 问题发现

    • 指出并修正了领域内普遍存在的“知识泄漏”问题,提出过滤版预训练数据集(Wikipedia-filtered)作为新基准。
  2. 性能突破

    • 在严格评估设置下,LPD仍显著超越现有技术,尤其在跨域任务中展现强鲁棒性。

其他价值
- 研究通过t-SNE可视化证实LPD能更好分离相似关系(如“child”与“mother”)的表示空间。
- 讨论了LPD的局限性,如仅适用于支持集提供标签的场景,未来可探索零样本或开放域扩展。


本报告完整呈现了研究的背景、方法、结果与价值,为相关领域研究者提供了全面的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com