基于本体信息增强的人类表型概念识别研究学术报告
一、研究团队与发表信息
本研究由大连理工大学计算机科学与技术学院的祁杰蔚、罗凌(通讯作者)、杨志豪、王健、林鸿飞合作完成,论文《基于本体信息增强的人类表型概念识别》(*Ontology Information-Augmented Human Phenotype Concept Recognition*)发表于2024年第二十三届中国计算语言学大会(CCL 2024)论文集,会议于2024年7月25日至28日在太原举行。
二、学术背景与研究目标
人类表型本体(Human Phenotype Ontology, HPO)是描述疾病表型特征的标准词汇库,对疾病诊断和基因研究至关重要。然而,现有表型概念识别方法主要依赖词典匹配或浅层本体信息(如概念名称和同义词),忽略了HPO中丰富的层次结构和定义信息,导致召回率低且语义理解不足。
本研究旨在解决两大问题:
1. 数据增强:HPO中40%的概念缺乏同义词,限制了深度学习模型的训练效果;
2. 模型增强:现有方法未充分利用HPO的层次结构等本体信息。
研究目标是通过大语言模型(LLM)生成同义词以扩充训练数据,并设计融合本体向量的深度学习模型,提升概念识别的准确性与鲁棒性。
三、研究方法与流程
研究分为数据增强、模型构建和实验验证三阶段,具体流程如下:
数据增强:基于GPT-4的同义词生成
模型构建:本体向量增强的深度学习框架
概念识别流程
四、主要实验结果
1. 数据增强效果:
- GPT-4生成的同义词使BioBERT模型在GSC+数据集上F1值提升至0.760,优于传统增强方法(如WordNet同义词替换仅提升0.7%)。
- 在ID-68临床病历数据集上,召回率提升至0.780,验证了生成同义词的领域适应性。
本体向量增强效果:
综合性能对比:
五、研究结论与价值
1. 科学价值:
- 提出首例结合LLM生成能力与本体结构信息的表型识别框架,为生物医学文本挖掘提供新范式;
- 验证了本体层次关系在语义消歧中的关键作用,推动知识表示学习在医疗NLP中的应用。
六、研究亮点
1. 创新方法:
- 设计医学专家角色Prompt,实现高质量同义词生成;
- 提出“本体向量+预训练模型”的双通道特征融合机制。
2. 性能突破:在资源稀缺场景下(如ID-68小样本数据),模型仍保持高鲁棒性。
七、未来方向
1. 探索更多本体信息(如概念评论)的利用方式;
2. 开发基于LLM的生成式概念识别框架,进一步减少对标注数据的依赖。
(注:文中涉及的HPO术语均保留英文缩写,如“Human Phenotype Ontology”首次出现时标注为“人类表型本体(HPO)”)