分享自:

评估大型语言模型通过多策略提示从胃镜和结肠镜报告中提取信息的能力

期刊:journal of biomedical informaticsDOI:10.1016/j.jbi.2025.104844

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


大型语言模型在内窥镜报告信息提取中的多策略提示评估研究

作者及机构
本研究的共同第一作者为厦门大学医学与健康数据科学研究所的Zhengqiu Yu和浙江中医药大学附属第二医院重症医学科的Lexin Fang,通讯作者为厦门大学计算机科学与技术系的Xiangrong Liu。合作作者包括浙江中医药大学附属第二医院消化内科的Yueping Ding、Yan Shen、Lei Xu以及Yaozheng Cai。研究成果发表于2025年的《Journal of Biomedical Informatics》(卷168,文章编号104844)。


学术背景
研究领域聚焦于生物医学信息学中的临床自然语言处理(Clinical Natural Language Processing, NLP),具体探索大型语言模型(Large Language Models, LLMs)在胃肠镜和结肠镜报告中的结构化信息提取能力。传统NLP方法在处理内窥镜报告时面临术语变异性高、空间关系复杂等挑战,而LLMs凭借其强大的上下文理解能力,为医疗文本分析提供了新思路。本研究旨在通过多层级任务设计和提示工程(Prompt Engineering),系统评估LLMs在专业医学领域的性能边界,为临床文档自动化分析系统的开发提供依据。


研究流程与方法
1. 数据集构建
- 数据来源:从浙江中医药大学附属第二医院电子病历系统收集2022-2023年的162份内窥镜报告(包括胃镜、结肠镜和超声内镜),原始中文报告经双语医学专家翻译为英文并校验。
- 标注流程:由两名具有10年以上经验的内镜专家独立标注,涵盖三个维度:实体提取(解剖位置、病变特征、层次结构)、关系模式识别(空间分布分类)和诊断评估(良恶性分类)。标注一致性通过Cohen’s Kappa系数验证(实体提取0.85,模式识别0.81,诊断评估0.79)。
- 数据划分:验证集(20%)用于提示策略优化,测试集(80%)用于最终评估。

  1. 任务框架设计

    • 基础实体提取:要求模型识别解剖位置(如胃窦_gastric_antrum)、病变特征(如息肉_polyp)和超声层次结构(如黏膜层_mucosa),输出结构化JSON格式。
    • 模式识别:评估模型对病变空间分布的理解能力,分为连续型(continuous)、散在型(scattered)、局灶型(localized)和弥漫型(diffuse)四类。
    • 诊断评估:模型需根据内镜所见(不含病理结果)提供诊断建议,并分类为良性、恶性或癌前病变。
  2. 提示策略开发

    • 零样本(Zero-shot)策略:包括直接提示(Direct Prompting)和五种思维链(Chain-of-Thought, CoT)变体(如系统性分析、专家角色模拟、演绎推理等)。
    • 少样本(Few-shot)策略:在提示中加入1-5个标注示例,对比不同示例数量对性能的影响。
    • 具体提示模板详见论文补充材料,代码已开源(GitHub仓库:endoscopy_llms)。
  3. 模型选择与配置
    评估了包括Gemini系列(2.0-Flash-Exp、1.5-Pro)、GPT-4(含GPT-4o)、Claude-3.5-Sonnet、Llama3(70B/3B/1B)、GLM-4等12种专有和开源模型,统一采用API调用或本地部署,参数配置针对医学任务优化。

  4. 评估指标

    • 实体提取:精确率(Precision)、召回率(Recall)、F1值。
    • 模式识别:分布模式准确率(Accuracy_pattern)、位置集合准确率(Accuracy_location)。
    • 诊断评估:诊断术语匹配率(Accuracy_diagnosis)和分类准确率(Accuracy_classification)。

主要结果
1. 实体提取性能
GPT-4在系统性CoT提示下达到最高F1值84.1%(精确率85.2%,召回率83.0%),显著优于直接提示(F1 81.3%)。开源模型中,Llama3-70B表现最佳(F1 79.9%),但小参数模型(如Llama3-1B)性能下降明显。错误分析显示,模型对解剖位置的识别优于病变特征描述(如息肉形态“平坦型_flat”易被遗漏)。

  1. 模式识别挑战
    Deepseek-v3在演绎推理CoT下取得最高模式准确率90.4%,但位置集合准确率仅78.2%,表明模型对空间关系的整合能力不足。Claude-3.5-Sonnet在专家角色提示下位置准确率达93.4%,但分类一致性较低(76.5%),反映临床推理的复杂性。

  2. 诊断评估差异
    GPT-4的诊断准确率(78.9%)与分类准确率(76.6%)相对均衡,而Llama3-70B虽分类准确率高达93.2%,但诊断术语匹配率仅78.6%,提示模型更擅长宏观分类而非细节推理。少样本学习在诊断任务中提升有限(如GLM-4-Flash的准确率仅从61.8%增至62.3%)。

  3. 提示策略比较

    • CoT系统性分析对实体提取效果最显著(如Gemini-2.0-Flash-Exp的F1提升2.8%)。
    • 少样本学习呈现非线性关系:GPT-4在5样本下实体F1提升1.7%,而Grok-beta在2样本后性能回落,说明示例质量比数量更重要。

结论与价值
1. 科学意义
- 证实LLMs在专业医学文本处理中的潜力与局限:大参数模型(如GPT-4、Gemini)在结构化任务中表现优异,但复杂临床推理仍需改进。
- 提出分层评估框架,为后续研究提供标准化基准(数据集和评估协议已公开)。

  1. 应用价值

    • 实体提取模块可集成至临床文档系统,自动化生成结构化报告(如病变定位编码),减轻医生文书负担。
    • 诊断辅助功能需谨慎部署,建议作为“第二意见”工具,结合人工审核以降低误判风险。
  2. 方法论创新

    • 首次系统比较多种CoT策略在医学信息提取中的效果,揭示专家角色提示对空间关系任务的特殊性。
    • 开发融合临床协议(Clinical Protocol)的提示模板,提升模型输出与医疗规范的兼容性。

研究亮点
1. 多维度评估:首次将内窥镜报告分析分解为实体、模式、诊断三级任务,揭示模型能力梯度。
2. 跨模型对比:涵盖12种前沿LLMs,包括专有模型(如GPT-4o)和开源替代方案(如Llama3),为医疗机构选型提供参考。
3. 临床可解释性:通过错误分析(如诊断幻觉_Diagnostic Hallucination)明确模型改进方向,推动可信AI发展。

补充发现
- 少样本学习对开源模型提升更显著(如Llama3-70B在5样本下诊断准确率+6.3%),提示数据效率与模型规模的相关性。
- 模型在超声内镜层次结构描述中的表现逊于普通内镜,可能与训练数据中影像文本占比不足有关。

(全文共计约2200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com