分享自:

利用大型语言模型进行临床信息提取:系统性文献综述

期刊:ACM Transactions on Computing for HealthcareDOI:10.1145/3744660

大型语言模型在临床信息抽取中的应用:系统性文献综述

作者及机构
本文由葡萄牙波尔图大学工程学院(Faculty of Engineering, University of Porto)及INESC TEC研究所的Tiago Rodrigues和Carla Teixeira Lopes合作完成,发表于2025年10月的《ACM Transactions on Computing for Healthcare》期刊(第6卷第4期,文章47号)。

研究背景与目标
电子健康记录(Electronic Health Records, EHRs)包含大量非结构化的临床文本(如诊断、用药记录等),但其领域特异性词汇使得通用自然语言处理(NLP)技术难以直接应用。近年来,大型语言模型(Large Language Models, LLMs)的进展为临床信息抽取(Clinical Information Extraction, IE)提供了新机遇。本文旨在系统性综述LLMs在临床IE中的应用,回答三个核心问题:
1. RQ1:哪些LLMs最常用于临床IE任务?
2. RQ2:LLMs如何应用于不同临床IE任务?
3. RQ3:基于LLM的临床IE系统如何评估及比较?

研究方法与流程
1. 文献筛选流程
- 遵循PRISMA声明,通过数据库检索(Google Scholar、ACM Digital Library等)和引文追踪,筛选出85篇相关研究。
- 纳入标准包括:使用LLM、聚焦临床IE、排除非研究性文献(如综述或技术报告)。

  1. 任务分类与模型分析

    • 实体抽取(Entity Extraction):63篇研究,主要采用BERT及其变体(如BioBERT、ClinicalBERT),部分研究结合双向长短期记忆网络(Bidirectional LSTM, BiLSTM)和条件随机场(Conditional Random Field, CRF)。中文研究多依赖BiLSTM+CRF架构以处理语境依赖性。
    • 关系抽取(Relation Extraction):27篇研究,包括通用关系抽取(如药物-疾病关联)和时序关系抽取(Temporal Relation Extraction)。BERT变体(如BlueBERT)和预训练模型(如RoBERTa)为主流,部分研究引入图卷积网络(Graph CNN)提升性能。
    • 联合实体与关系抽取:14篇研究,通过共享BERT底层结构并添加任务特定层实现端到端系统。
  2. 评估与数据集

    • 评估指标:F1分数(86.3%–98.0%)、准确率(87.7%)、ROC AUC(92.4%)等。
    • 常用数据集:i2b2系列(如2010年挑战赛数据集)、n2c2 2018、MIMIC-III等,涵盖英文、中文、西班牙语等多语言临床文本。

主要结果
1. 模型性能
- 实体抽取:预训练模型(如ClinicalBERT)在i2b2 2010数据集上F1达90.3%,中文模型(如MC-BERT)在CCKS 2017上F1达94.2%。
- 关系抽取:UMLS知识增强的ClinicalBERT在i2b2 2010上F1达91.8%,时序任务中T5模型表现最佳(F1 91.2%)。
- 联合任务:DeBERTa-v3在CMED数据集上F1达89.2%。

  1. 创新方法
    • 多任务学习:如Multitask-BlueBERT,可同时处理实体和关系抽取。
    • 提示工程(Prompt Engineering):GPT-4在零样本(Zero-shot)设定下实现87.7%准确率,但需人工监督以减少幻觉(Hallucination)。

结论与价值
1. 科学意义
- 证实LLMs在临床IE中的有效性,尤其是预训练模型对领域术语的适应性。
- 提出多任务学习和知识增强(如UMLS嵌入)是提升性能的关键路径。

  1. 应用价值
    • 为临床决策支持系统提供自动化信息抽取方案,减少人工标注成本。
    • 揭示当前局限:端到端系统仍需突破,跨语言和低资源场景数据稀缺。

亮点与创新
1. 全面性:首次系统性综述LLMs在临床IE中的应用,涵盖85项研究。
2. 方法论创新:提出任务分类框架(实体、关系、联合任务)和评估标准。
3. 跨语言分析:对比中、英、西语等不同语言下的模型表现,揭示架构选择差异(如中文偏好BiLSTM+CRF)。

其他有价值内容
- 数据集开源:作者公开了文献筛选的完整数据(研究数据仓库104号),便于后续研究复现。
- 未来方向:需开发统一评估基准,并探索LLMs在临床摘要生成(Summarization)等衍生任务中的潜力。

本文为临床NLP领域提供了重要参考,尤其为LLMs在医疗信息化中的落地指明了技术路径与挑战。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com