分享自:

大型语言模型在电子健康记录中提取结直肠癌和异型增生病理诊断的应用

期刊:bmj open gastroenterolDOI:10.1136/bmjgast-2025-001896

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


大型语言模型在从电子健康记录中提取结直肠癌和异型增生病理诊断中的应用研究

作者及机构
本研究由Brian Johnson(加州大学圣地亚哥分校医学院生物医学信息学部)、Tyler Bath(同前)、Xinyi Huang(退伍军人医学研究基金会)等来自加州大学圣地亚哥分校、退伍军人健康管理局(VHA)及百万退伍军人计划(MVP)生物库的多学科团队完成,发表于BMJ Open Gastroenterology 2025年第12卷,DOI:10.1136/bmjgast-2025-001896。


学术背景

研究领域与动机
研究聚焦于医学信息学与消化病学交叉领域,旨在解决电子健康记录(EHR)中非结构化文本数据(如病理报告)的自动化提取难题。传统自然语言处理(NLP)方法需耗费大量人力开发规则库,且难以泛化至不同医疗系统或患者群体(如炎症性肠病(IBD)与非IBD人群)。随着开源大型语言模型(LLM)的进步,本研究探索了无需任务特异性训练的LLM在病理诊断分类中的准确性,以支持大规模临床研究。

科学问题
结直肠癌(CRC)和异型增生的早期诊断依赖病理报告,但现有结构化数据集常不完整。尤其在IBD患者中,传统NLP方法因术语差异(如“异型增生相关病变或肿块”DALM)和否定表达频繁而表现受限。研究目标包括:
1. 开发基于LLM的自动化框架,从VHA数据库中提取三类病理诊断:任何结直肠异型增生(Any Dysplasia)、高级别异型增生或腺癌(HGD/CRC)、浸润性腺癌(Invasive CRC);
2. 验证该方法在IBD与非IBD人群中的泛化能力;
3. 评估模型在资源受限环境中的可行性。


研究流程与方法

1. 数据来源与预处理
- 数据集
- VHA企业数据仓库(CDW):涵盖1520万患者、62亿条临床记录,时间跨度为2000年至今。
- 百万退伍军人计划(MVP):91.3万志愿者的基因组与健康数据,病理报告经VA病理学域(Pathology Domain)结构化提取“标本”和“显微镜检查”部分。
- 样本筛选:通过正则表达式匹配结直肠部位术语(如“colon”“rectum”)及病理学术语(如“carcinoma”“dysplasia”),最终纳入MVP中27.9万份报告、CDW中289.9万份报告。

2. LLM模型开发与验证
- 模型选择:采用开源模型Gemma-2(90亿参数)和Llama-3(80亿参数),以GGUF格式量化后部署于VA保密计算环境(VINCI)。
- 提示词工程(Prompt Engineering)
- 基于48份IBD病理报告迭代开发“是/否”问答模板(如“该报告是否描述结直肠浸润性腺癌?”)。
- 输入文本为“显微镜检查”章节或完整病理报告。
- 验证设计
- 分层抽样:每任务(如HGD/CRC)在IBD与非IBD队列中分别抽取150-300份报告,由两名评审员盲法复核,Kappa一致性达89%-97%。
- 性能指标:计算F1分数(平衡准确率)、校准F1(F1c)以校正类别不平衡,并统计阳性预测值(PPV)、阴性预测值(NPV)等。

3. 计算环境优化
- 对比CPU(4核)与GPU(NVIDIA A40)环境下的推理速度,量化模型(如Llama-3.2-3B)以降低计算成本。


主要结果

1. IBD队列中的性能
- 任何异型增生:F1=96.9%(95%CI 94.0%-99.6%),PPV=95.7%,NPV=99.3%。
- HGD/CRC:F1=93.7%(88.2%-98.4%),校准后F1c=96.8%。
- 浸润性CRC:F1=98.0%(96.3%-99.4%),敏感性达100%。
- 不确定性异型增生(IND):虽罕见(患病率3%),F1c仍达98.6%。

2. 非IBD队列中的泛化能力
- 任何异型增生:F1=99.2%(98.2%-100%),显著优于传统NLP文献报告的95%-99%。
- HGD/CRC与CRC:F1分别达96.5%与95.0%,证明模型对术语差异的鲁棒性。

3. 全文本病理报告的适用性
- 输入完整报告(非结构化文本)时,性能略有下降(如HGD/CRC的F1=86.7%),但校准后F1c仍保持95%以上,表明LLM对格式变化的适应性。


结论与价值

科学意义
1. 方法学创新:首次验证中小规模开源LLM(8-90亿参数)无需微调即可高精度提取复杂病理特征,为临床表型研究提供可扩展方案。
2. 临床价值:解决了IBD患者病理报告的特殊性(如DALM术语、高否定率),支持个性化筛查指南制定。
3. 数据安全:模型在本地化环境中运行,避免第三方数据传输,符合医疗隐私法规。

应用前景
- 可扩展至其他病理诊断(如肿瘤分期、部位描述)及实时决策支持系统(如“医疗数字孪生”)。
- 为资源有限机构提供低代码解决方案,减少人工标注负担。


研究亮点

  1. 高效性:仅需简单提示词工程,开发周期远短于传统NLP规则库。
  2. 泛化性:在IBD与非IBD、结构化与非结构化文本中均表现优异。
  3. 可复现性:公开代码库(基于llama.cpp)及验证流程,支持跨机构验证。
  4. 计算优化:量化模型在CPU环境下仍保持高精度,降低硬件门槛。

局限性
未测试更大参数模型(如GPT-4)的潜力,且依赖VHA系统数据,需进一步外部验证。


其他价值

研究强调了开源LLM在医疗数据标准化中的潜力,为后续整合基因组数据(如MVP生物库)奠定基础,助力精准医学发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com