基于细粒度语义信息的远程监督关系抽取方法

分享自：
基于细粒度语义信息的远程监督关系抽取方法

期刊:scientific reportsDOI:10.1038/s41598-023-41354-4
本文介绍由哈尔滨师范大学计算机科学与信息工程学院的孙成红、季卫东*、周国辉、郭辉、尹增祥和岳宇奇共同完成的研究。该研究发表于《科学报告》（Scientific Reports）期刊，具体卷期信息为 (2023) 13:14075，文章在线发表日期为2023年。
研究背景与目标 本研究的学术领域属于自然语言处理（NLP）中的关系抽取（Relation Extraction, RE）。关系抽取旨在从非结构化文本中识别实体对之间的语义关系，是构建知识图谱等下游应用的关键步骤。远程监督（Distant Supervision）是一种高效的自动标注方法，其核心假设是：若知识库中存在某对实体的特定关系，则所有包含这对实体的句子都表达了该关系。然而，这一“强假设”导致自动标注的数据集中包含大量噪声数据（即实际并未表达该关系的句子），严重干扰关系抽取模型的训练效果。
因此，本研究旨在解决远程监督关系抽取中的噪声干扰问题。研究者提出一个核心假设：句子内部的关键语义信息对实体关系抽取起着至关重要的作用。基于此，本研究的目标是开发一种新的模型，能够聚焦于句子中表达关系的细粒度语义信息，并有效过滤掉句子内和句子间的噪声，从而提升关系抽取的准确性和鲁棒性。
研究流程与方法详述 本研究提出了一种名为“基于细粒度语义信息的分段卷积神经网络”（PCNN+FGSI）的远程监督关系抽取模型。整个研究流程可分为模型设计、实验验证与分析两大部分。
第一部分：PCNN+FGSI模型设计 模型整体架构包含四个层级：基于细粒度语义信息的文本嵌入层、单句特征输出层、多句组合特征输出层和关系分类层。
1. 基于细粒度语义信息的文本嵌入层 此层负责将原始句子转换为富含语义信息的向量表示，包含三个关键步骤： * 词嵌入（Word Embedding）：使用预训练的斯坦福GloVe词向量，将句子中的每个词转换为低维分布式向量表示。 * 句内注意力机制（Intra-sentence Attention Mechanism）：这是本研究的核心创新之一。传统注意力机制多在句子或词袋（Bag）级别操作，而本研究在更细粒度上操作。具体做法是：根据目标实体对（头实体和尾实体）在句子中的位置，将句子分割为三个片段（实体1左侧、两实体之间、实体2右侧）。模型计算每个片段对于当前关系标签的贡献度（通过计算片段向量与关系标签向量的余弦相似度），并依此分配不同的注意力权重。贡献度高的片段（通常包含关键语义信息）获得更高权重，贡献度低的片段（可能包含无关噪声）获得较低权重。最后，将加权后的三个片段向量拼接，形成突出关键语义的句子嵌入表示。这一机制使模型能聚焦于与关系最相关的局部上下文，而非平等对待所有词语。 * 位置嵌入（Position Embedding）：为了捕获句子结构信息，模型记录句子中每个词与两个实体的相对距离，并将这些距离映射为向量。位置向量与词向量拼接，共同构成最终的词语表示。这有助于模型识别靠近实体的、通常更重要的词语。
2. 单句特征输出层 该层采用分段卷积神经网络（PCNN）结构对嵌入后的句子进行特征提取。 * 卷积（Convolution）：使用多个不同尺寸的卷积核（本研究使用了尺寸为3,4,5的卷积核，各200个）在句子嵌入矩阵上进行滑动窗口操作，提取局部特征，生成特征图。 * 分段最大池化（Piecewise Max Pooling）：同样依据两个实体的位置，将卷积后得到的每个特征图也分割为三个部分。在每个部分内分别进行最大池化操作，提取该部分的最显著特征。最后将所有部分的最大池化结果拼接起来，形成该句子的最终特征向量。PCNN结构能有效捕获实体对周围的局部语义特征。
3. 多句组合特征输出层 在远程监督中，同一个实体对的所有句子构成一个“包”（Bag）。此层旨在从包中筛选出真正表达目标关系的正例句子，并聚合它们的特征。 * 改进的袋内注意力机制（Improved Intra-bag Attention Mechanism）：这是本研究的另一项改进。传统方法直接计算包内所有句子的注意力权重并加权求和。本研究引入了一个阈值门（Threshold Gate）。首先，计算包内每个句子的特征向量与关系查询向量（relation query vector）的相似度作为初始得分。然后，设置一个超参数β作为阈值。只有得分高于β的句子才被保留参与后续的权重计算和特征聚合；得分低于β的句子被视为低相关噪声句，其权重被置零，从而被过滤掉。最后，基于保留句子的归一化权重，对它们的特征向量进行加权求和，生成代表整个包的组合特征向量。这一机制能更主动地剔除包内的噪声句子，提升训练数据的质量。
4. 关系分类层 将得到的包级组合特征向量输入一个全连接层，后接Softmax分类器，预测该实体对属于预定义关系集合中各类别的概率分布。模型采用交叉熵损失函数，并使用Adam优化器进行参数更新。
第二部分：实验与评估 研究在广泛使用的远程监督关系抽取数据集NYT-10上进行了实验验证。 * 评估指标：采用留出评估法（Held-out Evaluation），使用精确率-召回率曲线（PR Curve）、P@N（Precision@Top N，即预测概率最高的前N个结果中的准确率）和AUC值（曲线下面积）作为主要评估指标。 * 对比模型：选择了包括Mintz、MultiR、MIML、PCNN+MAX、PCNN+ATT（句子级注意力）、PCNN+MIL、PCNN+RL、APCNNs、BGWA、PCNN+ATT+N、BERT+GCN、PARE、PCNN+BATT在内的十余个经典和先进的基线模型进行对比。 * 参数设置：模型关键参数包括词向量维度（200）、位置向量维度（5）、卷积核尺寸与数量、批次大小（128）、丢弃率（0.5）以及阈值门β（通过实验确定为0.25）。 * 消融实验（Ablation Experiment）：为了验证提出的“基于细粒度语义信息的文本嵌入层”（即句内注意力机制）的有效性，设置了控制实验：对照组（CG）为完整的PCNN+FGSI模型；实验组（EG）则在该嵌入层中屏蔽句内注意力机制，使用常规的文本嵌入方式。
主要研究结果 1. 对比实验结果： * PR曲线：PCNN+FGSI模型在整个召回率范围内（尤其是0-0.5的中高精度区间）均保持了优异的性能，显著优于其他基于PCNN的改进模型（如PCNN+ATT, PCNN+BATT等）以及其他经典模型（如APCNNs, BGWA等）。这表明模型在保持高精度的同时，能有效识别出更多正例。 * P@N指标：在P@100、P@200、P@300指标上，PCNN+FGSI模型分别达到了86.5%、82.7%、76.4%，平均准确率为81.9%，在所有对比模型中表现最佳。例如，相较于广泛使用的PCNN+ATT模型，平均准确率提升了约8个百分点。 * AUC值：PCNN+FGSI模型的AUC值达到49.6%，优于所有列出的基线模型，进一步证明了模型整体性能的优越性。
2. 阈值门β的影响分析： 实验探究了阈值β对模型效果的影响。结果显示，当β=0.25时，模型在各项P@N指标上达到峰值（P@100=86.5%）。β值过小（如0.10）则过滤噪声不充分，β值过大（如0.35）则可能误滤有用信息，导致性能下降。这验证了阈值门机制的有效性及其参数设置的合理性。
3. 消融实验结果： 移除句内注意力机制后（实验组EG），模型在所有评估指标上均出现明显下降：P@100、P@200、P@300分别降至82.3%、78.4%、74.2%，平均准确率降至78.3%，AUC值降至44.1%。这强有力地证明了基于细粒度语义信息的句内注意力机制对于提升模型性能具有关键作用。它通过聚焦关键语义片段，帮助模型构建了更鲁棒的特征表示。
研究结论与价值 本研究成功提出并验证了一种基于细粒度语义信息的远程监督关系抽取方法（PCNN+FGSI）。主要结论如下： 1. 方法有效性：通过句内注意力机制聚焦实体对间的关键语义片段，并通过改进的袋内注意力机制（带阈值门）主动过滤包内噪声，能显著缓解远程监督中的噪声问题。 2. 性能优越性：在标准数据集NYT-10上的实验表明，该模型在PR曲线、P@N和AUC等多个关键指标上均超越了现有的先进方法，证明了其有效性和优越性。 3. 组件必要性：消融实验证实了句内注意力机制是该模型性能提升的核心贡献点。
本研究的价值体现在： * 科学价值：为远程监督关系抽取的降噪问题提供了一种新颖的解决思路，即从“细粒度语义聚焦”和“主动噪声过滤”两个层面协同作用。它深化了对句子内部语义结构与关系表达之间关联的理解。 * 应用价值：所提模型能够生成更高质量的关系抽取结果，这对于构建更准确、更完备的知识图谱、提升问答系统、信息检索等下游NLP应用性能具有直接的促进作用。
研究亮点 1. 创新性的句内注意力机制：突破了传统句子级或词袋级注意力的范畴，首次提出根据实体位置分割句子，并在片段级别计算注意力，实现了真正意义上的细粒度语义信息聚焦。 2. 改进的袋内注意力机制：引入阈值门进行主动噪声过滤，改变了以往仅靠权重加权来“软化”噪声影响的被动方式，使模型能更积极地利用高质量正例。 3. 显著的性能提升：通过上述两项创新，在主流基准上取得了显著的性能提升，为相关领域设立了新的标杆。 4. 扎实的验证体系：不仅进行了广泛的对比实验，还设计了严谨的消融实验和参数分析，全面、可信地验证了各模块的有效性。
未来展望 作者在文末指出，未来工作可以考虑从语言学角度选取能表达语义关系的高质量外部描述信息（如实体描述、上下文语境等）融入模型训练，将关系抽取的研究重点更多转向语义研究，为开放域关系抽取奠定基础。这指明了结合外部知识和深度语义理解是未来重要的研究方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问