基于先验知识的问诊系统文本结构化解析方法
作者与机构
本文由来自中国科学技术信息研究所信息技术支持中心的刘耀与周家辉,以及香港理工大学中文及双语系的翟雨共同完成。研究发表在《计算机应用研究》期刊,网络首发日期为2024年12月17日。
学术背景
随着医疗信息化的推进,越来越多的医疗机构开始采用智慧化系统,尤其是线上问诊渠道的普及。然而,问诊业务涉及复杂的医学知识体系,如何在问诊系统中实现医学文本与患者自述等数据的结构化解析,成为提升诊断效率的关键问题。本文的研究领域主要涉及自然语言处理(Natural Language Processing, NLP)和知识工程(Knowledge Engineering)。研究的目标是通过将先验知识(Prior Knowledge)融入BERT模型,提出一种工程处理与算法协同学习框架,以优化问诊系统文本的结构化解析,从而为医生提供更好的辅助诊断支持。
研究目标
本文旨在提出一种基于先验知识的问诊系统文本结构化解析方法,通过构建领域先验词典、知识网络等资源,设计概念标引模型(Concept Indexing Model)和概念关系标引模型(Concept Relationship Indexing Model),实现对医学书籍和患者自述文本的结构化解析,最终提高问诊系统的智能化水平。
详细工作流程
1. 领域先验知识获取与资源存储
本文首先通过工程方法获取医学领域的先验知识,包括构建领域先验词典和知识网络。具体步骤包括:
- 从糖尿病领域的医学书籍和网络资源中抽取术语,构建先验词典。
- 设计先验关系规则,利用动态窗口算法(Dynamic Window Algorithm for Relation Extraction, Dware)抽取概念关系,生成三元组形式的知识网络。
- 将问诊领域的书籍、患者自述等资源通过XML格式进行结构化存储,构建资源库模型。
先验知识增强的MedReBERT模型
本文基于BERT模型,提出了一种先验知识增强的MedReBERT模型(Prior Knowledge Enhanced MedReBERT Model)。该模型通过掩码语言模型(Masked Language Model, MLM)任务和实体排序任务(Entity Ranking Task)将医学领域的先验知识融入模型。具体流程包括:
概念标引模型
本文设计了概念标引模型,通过完型填空模板将概念类别判断问题转换为文本生成任务。具体步骤包括:
概念关系标引模型
本文还设计了概念关系标引模型,将关系抽取任务转换为文本生成任务。具体流程包括:
工程处理与算法协同学习框架
本文提出了一种工程处理与算法协同学习框架,通过接口化的方式实现算法模型的训练与部署。具体内容包括:
主要结果
1. 概念标引模型实验
实验结果表明,基于先验知识增强的MedReBERT模型在小样本训练条件下具有显著优势。与基础BERT模型和ERNIE模型相比,本文提出的方法在准确率、召回率和F1值上均表现出色。例如,在样本数为20的情况下,本文方法的F1值达到0.91,远高于BERT模型的0.05和ERNIE模型的0.12。
结论
本文通过构建先验词典和知识网络,提出了一种基于先验知识的问诊系统文本结构化解析方法。该方法通过工程处理与算法协同学习框架,实现了医学书籍和患者自述文本的概念与关系抽取。实验证明,先验知识增强的MedReBERT模型在小样本训练条件下具有显著优势,且算法框架的接口化设计提升了模型的迭代效率和可移植性。
研究的科学价值与应用价值
本文的研究为问诊系统文本的结构化解析提供了新的解决方案,尤其在医学领域的预训练模型优化方面具有重要的科学价值。同时,工程处理与算法协同学习框架的设计为问诊系统的智能化升级提供了技术支撑,具有广泛的应用前景。
研究亮点
1. 提出了先验知识增强的MedReBERT模型,显著提升了医学文本的表征能力。
2. 设计了概念标引模型和概念关系标引模型,实现了问诊系统文本的结构化解析。
3. 构建了工程处理与算法协同学习框架,通过接口化设计提高了算法的迭代效率和可移植性。
其他有价值内容
本文还提出了动态窗口算法(Dware),用于灵活抽取概念间的关系,解决了传统定长区间方法在处理医学文本时的局限性。这一算法在关系抽取任务中表现出较好的效果,尤其在书籍类文本中的应用尤为显著。