分享自:

基于本体信息增强的人类表型概念识别

期刊:中国计算语言学大会

基于本体信息增强的人类表型概念识别研究学术报告

一、研究团队与发表信息
本研究由大连理工大学计算机科学与技术学院的祁杰蔚、罗凌(通讯作者)、杨志豪、王健、林鸿飞合作完成,论文《基于本体信息增强的人类表型概念识别》(*Ontology Information-Augmented Human Phenotype Concept Recognition*)发表于2024年第二十三届中国计算语言学大会(CCL 2024)论文集,会议于2024年7月25日至28日在太原举行。

二、学术背景与研究目标
人类表型本体(Human Phenotype Ontology, HPO)是描述疾病表型特征的标准词汇库,对疾病诊断和基因研究至关重要。然而,现有表型概念识别方法主要依赖词典匹配或浅层本体信息(如概念名称和同义词),忽略了HPO中丰富的层次结构和定义信息,导致召回率低且语义理解不足。

本研究旨在解决两大问题:
1. 数据增强:HPO中40%的概念缺乏同义词,限制了深度学习模型的训练效果;
2. 模型增强:现有方法未充分利用HPO的层次结构等本体信息。
研究目标是通过大语言模型(LLM)生成同义词以扩充训练数据,并设计融合本体向量的深度学习模型,提升概念识别的准确性与鲁棒性。

三、研究方法与流程
研究分为数据增强、模型构建和实验验证三阶段,具体流程如下:

  1. 数据增强:基于GPT-4的同义词生成

    • 输入设计:针对HPO中无同义词的概念,构建两类提示模板(Prompt):
      • *有定义概念*:结合医学定义、症状分析和上下位关系生成同义词(如“multicystic kidney dysplasia”生成“multicystic renal dysplasia”);
      • *无定义概念*:仅基于层次结构生成同义词。
    • 输出优化:实验表明,每个概念生成2个同义词时模型性能最佳(F1提升2.3%),过多同义词会引入噪声。
    • 效果验证:增强后的词典匹配方法召回率提升2.2%,BioBERT模型F1值提升至0.749。
  2. 模型构建:本体向量增强的深度学习框架

    • 文本编码层:采用生物医学预训练模型(BioBERT、BioFormer、PubMedBERT)提取文本特征,以[CLS]标记向量作为输入表示。
    • 本体结构编码层
      • 知识表示方法:对比TransE、TransR、ConvE和SemNE四种方法,将HPO树状结构转换为512维向量(TransR效果最佳);
      • 融合机制:通过点积运算将本体向量与文本特征结合,经全连接层分类。
    • 损失函数:使用稀疏交叉熵损失优化模型。
  3. 概念识别流程

    • 候选生成:输入文本经NLTK分句后生成n元词候选(n≤10),过滤无效词性组合(如介词开头的短语)。
    • 分类与集成
      • 深度学习模型预测候选的HPO ID概率,阈值设为0.95;
      • 融合词典匹配结果(Trie树精确匹配),按重叠规则保留高分候选。

四、主要实验结果
1. 数据增强效果
- GPT-4生成的同义词使BioBERT模型在GSC+数据集上F1值提升至0.760,优于传统增强方法(如WordNet同义词替换仅提升0.7%)。
- 在ID-68临床病历数据集上,召回率提升至0.780,验证了生成同义词的领域适应性。

  1. 本体向量增强效果

    • TransR提取的本体向量使BioBERT模型F1值达0.757,显著优于随机向量(F1=0.730)。
    • 结构信息帮助区分相似概念,如正确识别“brachydactyly type A-1”(HP:0009371)而非其父节点“brachydactyly”(HP:0001156)。
  2. 综合性能对比

    • 在GSC+和ID-68数据集上,融合GPT-4与TransR的方法平均F1值达0.805,超越现有最佳方法PhenoTagger(0.786)和PhenoBERT(0.784)。
    • 直接使用GPT-4进行概念识别的效果较差(F1=0.580),凸显了本文方法在精准定位和ID映射上的优势。

五、研究结论与价值
1. 科学价值
- 提出首例结合LLM生成能力与本体结构信息的表型识别框架,为生物医学文本挖掘提供新范式;
- 验证了本体层次关系在语义消歧中的关键作用,推动知识表示学习在医疗NLP中的应用。

  1. 应用价值
    • 可集成至电子病历分析系统,提升罕见病诊断效率;
    • 方法通用性强,可扩展至其他生物医学本体(如Gene Ontology)。

六、研究亮点
1. 创新方法
- 设计医学专家角色Prompt,实现高质量同义词生成;
- 提出“本体向量+预训练模型”的双通道特征融合机制。
2. 性能突破:在资源稀缺场景下(如ID-68小样本数据),模型仍保持高鲁棒性。

七、未来方向
1. 探索更多本体信息(如概念评论)的利用方式;
2. 开发基于LLM的生成式概念识别框架,进一步减少对标注数据的依赖。

(注:文中涉及的HPO术语均保留英文缩写,如“Human Phenotype Ontology”首次出现时标注为“人类表型本体(HPO)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com