本研究由Shan Gao(云南大学,云南省统计建模与数据分析重点实验室)、Kaixian Yu(InSilicoM LLC)、Yue Yang(北卡罗来纳大学教堂山分校生物统计学系)等14位作者共同完成,通讯作者为Niansheng Tang(云南大学)和Hongtu Zhu(北卡罗来纳大学教堂山分校)。研究成果于2025年发表在《Nature Communications》期刊上,文章题目为”Large language model powered knowledge graph construction for mental health exploration”(DOI:10.1038/s41467-025-62781-z)。
心理健康障碍已成为全球重大公共卫生问题,每年造成数万亿美元的经济损失。尽管相关研究日益增多,但研究成果分散在不同的研究和数据库中,缺乏系统性整合,这阻碍了对心理健康问题的全面理解和临床应用转化。知识图谱(Knowledge Graph,KG)技术能够将现实世界的知识组织成人类和机器均可访问的格式,为解决这一问题提供了可能。
现有心理健康领域知识图谱存在诸多局限性:疾病特异性知识图谱稀缺;信息提取训练数据创建成本高且耗时;常忽略关键的生活方式信息;关系类型有限;多数无法捕捉生物医学事实的复杂性(如忽略上下文细节);不同数据源的可信度差异影响知识提取的完整性等。为解决这些问题,研究团队开发了心理健康障碍知识图谱MDKG(Mental Disorders Knowledge Graph)。
研究团队首先创建了心理健康障碍相关信息提取语料库(MDIEC)。通过PubMed检索获取234,087篇相关文章(检索截至2024年1月1日),采用主动学习策略进行数据标注:先使用BERT模型识别和选择信息量最大的摘要,由专家标注后加入训练数据集。实体标注方面,先使用BERN2工具预标注,再通过GPT-4提取名词短语并构建实体匹配词典。关系标注方面,利用GPT-4识别潜在关系对,专家验证准确性。最终构建的MDIEC包含7,915个实体和8,425个关系。
研究采用SPERT.PL框架进行命名实体识别(NER)和关系抽取(RE),整合了Coder++编码器和NoisyTune方法优化模型性能。最佳NER模型获得微观F1分数0.89,RE任务微观/宏观F1分数均为0.68。经后处理后,NER和RE联合任务评估获得微观F1分数0.79和宏观F1分数0.76。
研究团队提出三步框架构建MDKG:(1)使用BERT模型提取实体、关系和条件语句;(2)结合OCR和ChatGPT从文献中提取研究人群基线特征;(3)附加来源信息和置信度评分等辅助信息。构建的文献知识图谱包含236,542个实体和1,913,461个三元组(其中880,692个规范化三元组),涉及9个实体类别和7种关系类型,平均入/出度为5.87。
研究团队采用知识融合方法将高质量生物医学数据库整合到MDKG中。首先评估10个主要数据库(包括DrugBank、DisGeNET、UMLS等)的数据源、生成方法、证据质量和更新频率;然后通过系统性的实体对齐与链接技术将数据与基于文献的知识图谱合并。最终MDKG包含1,642,543个实体和10,702,976个关系,通过BiomedKG门户(https://biomedkg.com)公开访问。
MDKG相比现有知识图谱(如PrimeKG、SPOKE、GENA)包含5到50倍更多关于抑郁症(MDD)、焦虑症、双相情感障碍、精神分裂症等疾病的信息。MDKG中有约21万(53.75%)诊断关系、11.5万(72.79%)定位关系和38万(77.16%)治疗关系直接来源于文献提取,显示出从非结构化文本中提取知识的重要性。
四位专家(两位精神科医生和两位医学博士生)对MDKG的质量评估显示:准确率达到79.0%(标准差0.01%),略高于GENA(78.3%)。错误主要来自语义模糊(28%)而非事实错误(12%)。临床专家评估一致性(Kappa系数0.43,同意率76.7%)显著高于跨专业评估(如D2-PhD1的Kappa系数0.04)。值得注意的是,MDKG的丰富上下文特征使评估时间比PrimeKG和GENA减少了62-77%,平均每个三元组仅需31秒(±2.24秒)。
研究团队在英国生物银行(UK Biobank)数据上测试了MDKG增强表示对精神障碍预测的效果,选取三种目标疾病:抑郁症(MDD)、焦虑症和双相情感障碍。使用RDF2Vec模型生成知识图谱嵌入,并将其与常规电子健康记录(EHR)特征结合。
结果显示:对于MDD预测,集成模型(EHR+KG)表现最佳,XGBoost达到最高AUC(0.89±0.02),比仅用EHR特征(0.82±0.03)提高了0.07。XGBoost在双相情感障碍预测中也表现最好(AUC 0.88±0.02),比仅用EHR特征(0.85±0.02)有所提升。对于焦虑症,逻辑回归(LR)表现最佳,集成模型AUC为0.83±0.02,高于仅用EHR特征(0.79±0.01)的结果。
SHAP(Shapley Additive Explanations)特征归因分析显示,在仅使用环境因素的MDD模型中,PM2.5(细颗粒物)是影响力最大的因子(SHAP值0.43);而在集成模型中,医学史嵌入(如嵌入47、162、190)成为最重要贡献因素,PM2.5的重要性略有下降(到0.40)。
MDKG是一个包含超过1000万个关联关系的大规模、上下文丰富的心理健康知识图谱,其中近100万个是现有资源中未包含的新关联。通过系统性地编码条件性、人口统计学因素和共现临床特征等上下文信息,MDKG使解释更加细致,并缩短专家验证时间达70%。
该研究的主要价值体现在: 1. 知识整合方面:MDKG克服了心理健康研究领域的碎片化问题,为这一领域提供了统一的资源框架。通过组织现有知识,应用统计和机器学习技术揭示隐藏模式和联系,可以带来新的见解。
2. 临床应用方面:在英国生物银行的预测建模应用中,MDKG增强的表示显著提高了对多种精神障碍的预测性能,且整合知识图谱嵌入能在临床数据有限的情况下增强预测建模能力。
3. 研究促进方面:MDKG包含广泛的因果路径,揭示了许多潜在的精神障碍发病机制,这一结构化资源支持持续研究努力,促进开发改进治疗方法和加深对这些疾病的理解。