大语言模型利用电子健康记录中识别健康的社会决定因素

2024-05-23 Thu
大语言模型利用电子健康记录中识别健康的社会决定因素背景及研究动机健康社会决定因素（Social Determinants of Health, SDOH）对患者的健康结果具有重要影响。然而，在电子健康记录（EHR）结构化数据中，这些因素的记录往往不完整或缺失。大语言模型（Large Language Models, LLMs）有望从EHR的叙述性文本中高通量提取SDOH，以支持研究和临床护理。然而，类别不平衡和数据限制为这种稀疏记录的关键信息带来了挑战。本文旨在探讨使用LLMs从EHR叙述性文本中提取六种SDOH类别（就业、住房、交通、父母身份、关系和社会支持）的最佳方法。
研究来源这项研究由Harvard Medical School的Mass General Brigham人工智能医学(AIM)计划的Marco Guevara、Shan Chen及其他多位合作作者共同完成。相关研究机构还包括Brigham and Women’s Hospital、Dana-Farber Cancer Institute及Boston Children’s Hospital等。论文发表于《npj Digital Medicine》2024年第7卷，并与Seoul National University Bundang Hospital合作发布。
研究流程研究对象及方法研究对象：研究对象包括接受放射治疗（RT）的癌症患者电子健康记录中的临床笔记。数据集共包括来自770名患者的800份临床笔记。
数据标注：通过对社会工作者、资源专家和肿瘤学家进行访谈，确定在EHR中临床相关但未作为结构化数据记录的SDOH。最终选定六类SDOH：就业状态（就业、失业、就业不足、退休、残疾、学生）、住房问题（财务状况、无家可归、其他）、交通问题（距离、资源、其他）、父母身份、关系（已婚、伴侣、寡居、离婚、单身）和社会支持（有无社会支持）。数据标注分为两种任务：任何SDOH提及和不利SDOH提及。
数据增强：利用GPT-3.5生成合成数据，提高训练集的多样性和模型性能。
模型开发：利用BERT和Flan-T5模型进行多标签分类任务，其中Flan-T5模型使用了参数高效的LoRA方法进行微调。主模型包括Flan-T5 base、large、xl和xxl模型。
模型评估：通过开发集和测试集评估模型的性能，计算模型在识别任何SDOH提及和不利SDOH提及任务上的宏F1值。
主要实验与研究结果模型性能：在放射治疗测试集上，对于任何SDOH提及任务，性能最佳的模型为使用合成数据的Flan-T5 xxl（宏F1 0.71）；对不利SDOH提及任务，最佳模型为不使用合成数据的Flan-T5 xl（宏F1 0.70）。总体来看，Flan-T5模型优于BERT模型，且性能随模型规模增加而提升。
数据增强效果：使用合成数据增强训练集有助于提升模型性能，尤其是在数据稀缺的类别（如住房、家长、交通方面）中，合成数据通常能显著改善模型的表现。
模型偏倚评估：Flan-T5模型和ChatGPT对包含和不包含人口统计信息的句子对给出了不同的分类结果。然而，Flan-T5模型的偏倚率明显低于ChatGPT。在包含人口统计信息的句子中，ChatGPT在女性和男性描述下，分类改变的比例较大。
与结构化EHR数据的比较：研究发现，通过文本提取的SDOH信息比结构化EHR数据中相关的ICD-10代码更能有效识别含有不利SDOH的患者。
研究亮点及结论研究亮点：
研究展示了大语言模型在提取EHR中的SDOH信息方面的潜能。
通过生成并纳入合成数据，提高了ELL模型在稀有SDOH数据类别上的识别性能。
Flan-T5模型在面对数据稀缺性挑战时，表现优于一些流行的模型家族如ChatGPT，且存在较少的算法偏倚。
意义与价值：
研究证明了通过LLMs改进真实世界SDOH数据收集和支持患者资源分配的潜力。
提供了新的注释指南以及合成SDOH数据集，供研究社区使用。
提出的方法有助于更好地理解健康差异驱动因素，并支持标记可能最能从资源和社会工作干预中受益的患者。
未来研究方向：
进一步优化合成数据生成方法以更好地挖掘稀疏记录的临床信息。
和其他数据源结合，提高模型的泛化能力。
本研究为利用大语言模型改进EHR中SDOH信息的自动提取提供了新路径，对提高健康数据的利用效率和支持临床决策具有重要意义。更多细节和模型代码可在相关公开资源库中获取，供进一步研究和应用。