利用自然语言处理从电子健康记录中提取健康社会决定因素：一项系统性综述

分享自：
利用自然语言处理从电子健康记录中提取健康社会决定因素：一项系统性综述

公共卫生
医学
信息科学
计算机科学
人工智能
期刊:Journal of the American Medical Informatics AssociationDOI:10.1093/jamia/ocab170
【点击此处】阅读全文、收藏及针对性提问
这篇文档《Extracting social determinants of health from electronic health records using natural language processing: a systematic review》是一篇系统性综述文章，属于类型b。以下是为中文读者撰写的学术报告。
本文是由以Braja G. Patra和Jyotishman Pathak为代表，来自Weill Cornell Medicine、University of Utah、Mayo Clinic、University of Florida、Columbia University等十余所美国顶尖研究机构和大学的庞大团队共同完成的系统性综述。文章于2021年10月6日在线发表在《Journal of the American Medical Informatics Association》第28卷第12期。论文的主题是全面审视和梳理利用自然语言处理（Natural Language Processing, NLP）技术从电子健康记录（Electronic Health Records, EHRs）的非结构化临床文本中提取健康社会决定因素（Social Determinants of Health, SDOH）的研究现状、方法、趋势与挑战。
主要观点一：利用NLP提取EHR中的SDOH数据具有重要潜力和现实紧迫性，但该领域缺乏系统性的梳理。 作者指出，SDOH作为影响患者健康风险和临床结果的非临床因素（如社会经济状况、生活环境、健康行为等），在改善诊断、治疗规划和患者预后方面潜力巨大。尽管在EHR中记录SDOH信息的兴趣日益增长，但这些信息通常“锁定”在非结构化的临床笔记中，难以被标准化利用。NLP是解锁这些信息、将其用于患者护理和研究的关键技术。然而，该领域的研究工具和方法多样，且缺乏一份能清晰描绘哪些SDOH已被研究、采用了何种NLP方法、以及其适用性的全面综述，这阻碍了该研究问题的高效推进。因此，本文旨在对专注于从EHR临床文本中识别和提取SDOH数据的最先进的NLP方法和工具进行系统性回顾，填补这一空白。
主要观点二：研究数量呈增长趋势，但SDOH的研究焦点分布极不均衡，主要集中在少数行为健康因素上。 通过遵循PRISMA指南，在三个学术数据库（ACL Anthology, PubMed, Scopus）中进行系统检索和筛选，作者最终纳入了82篇发表于2005年至2021年间的出版物进行分析。结果显示，SDOH的NLP研究在2013年后显著增加。然而，研究关注度高度集中。最常被研究的SDOH类别是：吸烟状况（27篇）、药物滥用（21篇）、无家可归（20篇）和酒精使用（15篇）。相比之下，其他重要的SDOH类别，如教育、财务问题、社会隔离与支持、家庭问题、交通、食品安全等，得到的研究关注非常少。这种不均衡可能反映了数据可得性、临床记录惯例以及研究初始兴趣点的差异。
主要观点三：SDOH提取系统的构建通常遵循“词典开发”与“识别/提取方法”两大步骤，且方法选择与SDOH类别及数据资源高度相关。 作者将现有研究的技术流程归纳为两个主要环节。第一环节是SDOH相关词典的开发。综述发现，大多数研究（尤其是针对无家可归、社会支持等类别）采用手动词典构建方法，即通过人工查阅文献、图表回顾或借助领域专家筛选关键词。例如，Gundlapalli等人通过人工审查病历创建无家可归词典，并利用美国国家医学图书馆的词典生成工具进行扩展。另一种方式是半自动词典创建，即利用Word2Vec等词嵌入模型，从种子词出发在临床文本中寻找相似词以扩展词典，再由专家审核，这种方法能减少人力但应用相对较少，见于住房、童年不良经历等类别的研究。 第二环节是SDOH的识别与提取方法。主要包括三类： 1. 基于规则的方法：在约27%的出版物中被使用，主要通过关键词匹配、正则表达式或相似度匹配来识别SDOH。这种方法在无家可归、交通、社会隔离等类别中更为常见，可能因为针对这些类别的标注数据稀缺，难以训练监督模型。 2. 监督学习方法：在约32%的出版物中被使用，需要标注好的数据集。支持向量机（SVM）、随机森林和逻辑回归是常用分类器。深度学习方法（如CNN、BiLSTM、BERT）的应用相对较少（仅7项研究），主要受限于标注数据不足。监督学习在吸烟状况、药物滥用和酒精使用的识别中非常流行，这些类别通常有更丰富的结构化数据（如ICD诊断码）可作为特征或弱监督标签。 3. 无监督分析方法：仅有3项研究，主要使用主题模型（如LDA）来探索社会史文档中的话题变异或识别药物滥用的亚型。
主要观点四：现有研究广泛利用了多种成熟的NLP工具、术语系统和EHR数据源，形成了特定的研究生态。 综述列出了常用于SDOH提取任务的现有NLP系统和工具，例如cTAKES（用于酒精使用、戒烟等）、MedTagger（用于吸烟状况）、以及VA系统内开发的V3NLP、ARC等。这些工具大多基于词典和规则。此外，UMLS、SNOMED、LOINC、ICD等标准化医学术语系统常被用于词典构建和系统评估。 数据源方面，研究高度依赖于几个大型EHR系统。美国退伍军人健康管理局（VHA）的数据集被广泛使用，尤其在无家可归和军事性创伤等SDOH的研究中。其他常用的数据源包括i2b2吸烟数据集、梅奥诊所、凯撒医疗集团、麻省总医院等机构的EHR数据。这反映了真实世界研究对高质量、大规模临床数据资源的依赖，但也可能带来结果普适性的问题。
主要观点五：超过半数的研究（49/82）不仅进行了SDOH识别，还进一步开展了SDOH与健康结局的关联分析，凸显了其临床应用价值。 本文的一个重要发现是，许多研究超越了单纯的信息提取，致力于探索SDOH对临床结果的影响。作者在表格中系统总结了各类SDOH与特定健康结局的关联研究。例如：无家可归与30天再入院、自杀、急性心肌梗死等相关联；社会联系/隔离与再入院、痴呆、心血管疾病等相关联；吸烟状况与哮喘/慢阻肺、情绪障碍等相关联；药物滥用与慢性阿片类药物治疗、自杀企图等相关联。这些分析证明了从EHR文本中提取的SDOH数据可以用于开发筛查工具、风险预测模型和临床决策支持系统，从而直接赋能临床实践和公共卫生研究。
主要观点六：领域存在明显局限，并由此指明了未来多个富有潜力的研究方向。 作者坦诚指出了本综述的方法学局限性，如ACL Anthology检索结果噪声大、未涵盖非英语EHR系统等。更重要的是，基于现有文献分析，他们提出了未来工作的方向： 1. 关注研究不足的SDOH领域：未来应更多关注儿童虐待、性虐待、财务问题、交通、社会隔离、就业、教育、食品安全等尚未被充分研究的SDOH类别。 2. 开发更复杂的NLP系统：当前研究多停留在文档级分类或简单概念识别。未来需要开发能够捕捉纵向信息（如无家可归状态的变化）、提取时间信息（如当前或过去使用）、精确提取概念范围（而不仅仅是存在性）以及提取SDOH概念间关系的综合性系统。 3. 探索深度学习与可迁移性：尽管DL在NLP领域优势明显，但在SDOH提取中应用较少，主要受制于标注数据规模。未来需要构建更大规模的标注语料库以发挥DL潜力。同时，开发跨机构、跨站点的可迁移NLP算法，以应对不同提供者的记录风格差异，将是实现技术泛化的关键。
总结：本文的意义与价值 这篇系统性综述具有重要的学术价值和实践指导意义。在学术上，它首次对“利用NLP从EHR提取SDOH”这一交叉领域进行了全面、结构化的梳理，清晰勾勒了该领域十余年的发展脉络、技术路径、研究热点与空白，为后续研究者提供了一个清晰的“知识地图”和切入点。在实践上，它通过总结现有方法（规则vs.监督学习）与SDOH类别（常见行为因素vs.社会经济因素）之间的匹配关系，以及列举可用的工具和数据源，为医疗机构、公共卫生研究者和医疗信息学家开发实用的SDOH提取解决方案提供了方法论参考和资源清单。文章最终强调，随着对非临床因素在健康中作用的认知不断加深，利用NLP高效、低干扰地从现有EHR文档中提取SDOH信息，并将其整合到临床决策中，是迈向更精准、更公平、更全面医疗保健的一个理想且关键的方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问