分享自:

基于混合注意力的原型网络在噪声少样本关系分类中的应用

期刊:AAAI Conference on Artificial IntelligenceDOI:10.1609/aaai.v33i01.33016407

本文介绍的研究属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


一、作者、机构及发表信息

本研究由Tianyu GaoXu HanZhiyuan LiuMaosong Sun(均为清华大学计算机科学与技术系、清华大学人工智能研究院、清华大学智能技术与系统国家重点实验室成员)合作完成,论文标题为《Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification》(基于混合注意力的原型网络在噪声小样本关系分类中的应用),发表于AAAI 2019(第33届AAAI人工智能会议),会议时间为2019年1月27日至2月1日,论文收录于会议论文集,DOI为10.1609/aaai.v33i01.33016407


二、学术背景

科学领域:本研究属于自然语言处理(NLP)中的关系分类(Relation Classification, RC)任务,核心目标是识别文本中实体对的语义关系。

研究动机:传统关系分类方法依赖远程监督(Distant Supervision, DS)自动标注数据,但面临两大挑战:
1. 数据稀疏性:长尾关系(long-tail relations)的标注实例极少;
2. 噪声干扰:DS标注存在错误标签,导致模型性能下降。
为解决这些问题,作者提出将关系分类重构为小样本学习(Few-Shot Learning, FSL)问题,即模型需通过极少量标注样本学习新关系。然而,现有FSL模型(如原型网络)主要针对低噪声视觉任务,难以直接处理文本的多样性和噪声。

研究目标:设计一种混合注意力机制的原型网络,提升模型在噪声环境下的鲁棒性和分类性能。


三、研究流程与方法

1. 框架设计

模型分为三部分:
- 实例编码器(Instance Encoder):采用CNN(卷积神经网络)将文本实例编码为低维向量,输入包括词嵌入(Glove预训练)和位置嵌入(标记实体相对位置)。
- 原型网络(Prototypical Networks):计算每个关系类别的原型向量(prototype),即支持集中实例嵌入的加权平均。
- 混合注意力(Hybrid Attention)
- 实例级注意力(Instance-Level Attention):动态分配实例权重,抑制噪声样本的影响;
- 特征级注意力(Feature-Level Attention):通过卷积层生成特征权重,突出判别性强的维度。

2. 创新方法

  • 实例级注意力机制:通过线性层和激活函数(tanh)计算查询实例与支持集实例的相似度,加权生成原型向量。
  • 特征级注意力机制:设计卷积模块(图1b)评估特征维度的重要性,改进欧氏距离计算(公式11)。

3. 实验设计

  • 数据集:使用FewRel数据集(64训练关系、16验证关系、20测试关系,每关系700实例)。
  • 噪声设置:在支持集中随机注入0%、10%、30%、50%的错误标签,验证模型抗噪能力。
  • 基线模型:对比传统FSL方法(如Meta Network、GNN)及原始原型网络(Proto)。
  • 评估指标:准确率(Accuracy),采用N-way K-shot任务设置(如5-way 5-shot)。

四、主要结果

  1. 性能提升

    • 在无噪声条件下,混合注意力模型(Proto-HATT)比原始原型网络(Proto)准确率提升1.07%(5-way 5-shot)至1.59%(10-way 5-shot)。
    • 在50%噪声下,Proto-HATT的准确率显著优于基线(如5-way 5-shot任务中,76.57% vs. 72.91%)。
  2. 收敛速度:混合注意力机制加速训练收敛(图2、图3),尤其在噪声环境下,训练迭代次数减少50%。

  3. 注意力机制分析

    • 实例级注意力:有效识别与查询语义相似的实例(表4案例);
    • 特征级注意力:高权重特征维度使类别边界更清晰(图4b)。

五、结论与价值

科学价值
- 首次将混合注意力机制引入小样本关系分类,解决了文本数据噪声和特征稀疏性问题;
- 为NLP领域的FSL研究提供了新范式,证明注意力机制在噪声环境下的必要性。

应用价值
- 可扩展至其他低资源NLP任务(如事件抽取、问答系统);
- 开源代码与数据集(GitHub链接)推动社区研究。


六、研究亮点

  1. 方法创新:结合实例级与特征级注意力,显著提升模型鲁棒性;
  2. 任务适配性:针对文本噪声设计专用距离函数(公式11);
  3. 效率优势:减少训练迭代次数,适合实际部署。

七、其他贡献

  • 公开了FewRel数据集,填补了小样本关系分类基准数据的空白;
  • 实验验证了CNN编码器在FSL任务中的有效性,为后续研究提供参考。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com