利用检索增强型大语言模型和阅读报告数据库赋能PET医学影像报告的pilot研究
大型语言模型在PET影像报告中的应用:一项结合检索增强生成模型的单中心试验研究
随着人工智能技术的迅猛发展,大型语言模型(Large Language Models, 以下简称LLM)的零样本学习能力和自然语言处理能力在医学领域引发了广泛关注。尽管LLM已经在某些医疗领域显示出改进效率和效果的潜力,但在核医学尤其是PET(正电子发射断层扫描)影像报告的应用尚属探索初期。这项研究由来自韩国首尔大学医院和首尔大学医学院的Hongyoon Choi博士及其团队完成,研究成果发表于《European Journal of Nuclear Medicine and Molecular Imaging》。
研究背景及问题陈述
PET影像在多种医学领域中应用广泛,其临床价值体现在疾病诊断、疾病分期以及疗效评估等方面。然而,PET影像产生的数据复杂且多样,仅依靠人工解读不仅费时费力,还容易受到观察者主观判断的影响。在核医学影像报告中,快速引用过往相似病例、支持差异诊断,以及为教育目的提供优秀案例这类需求,尚未得到适用工具的充分满足。此外,大型语言模型如ChatGPT在生成医学报告方面虽然展现了一定潜力,但其无法访问具体医学数据集以提供与一个医院或病例相关的精准理解。
研究者尝试通过结合检索增强生成(Retrieval-Augmented Generation, RAG)模型与包含丰富PET影像报告的长期数据库,探索如何利用LLM来改进PET影像报告生成,并满足临床需求。
研究目的
本研究旨在开发并评估一套基于RAG架构的自定义LLM框架,其目标包括: 1. 为影像诊断专家提供基于既往影像报告的参考,尤其是相似病例的检索与总结。 2. 支持医学教育,通过引用优秀案例辅助教学和临床学习。 3. 利用已有影像报告数据,支持专家完成差异诊断的流程。
方法与架构设计
数据集
研究团队从2010年至2023年的临床数据仓库提取了118,107名患者的PET影像诊断报告,总计211,813例。数据内容包括报告原文、检查日期、检查名称、患者性别及通常以年月格式表达的出生日期。所有数据经过去标识处理,以保护患者隐私。该研究已获得机构伦理委员会(Institutional Review Board, IRB)的审批,并豁免了患者知情同意。
系统架构
研究团队设计了一款原型对话机器人(chatbot),其基础架构结合了RAG模型和多模块组件,具体包括以下几个核心环节:
句子嵌入与向量化: 使用Sentence Transformers模型“paraphrase-multilingual-MiniLM-L12-v2”,将报告文本和用户查询转化为向量表示。该模型能够跨语言理解和重述文本,为双语数据集(英文和韩文)的应用提供支持。
向量存储机制: 应用Chroma数据库将句子嵌入存储为可搜索的向量空间。检索通过计算查询向量与存储向量间的余弦相似性完成,每次检索五个最相关文本用作生成上下文的基础。
检索增强的问答生成: 将从数据库中检索到的报告文本作为上下文,与用户问题合成完整提示(prompt),输入LLM生成回答。为测试目的,研究者采用了Llama-3语言模型(包含70亿参数),其实现基于LangChain架构。
数据可视化: 使用t-SNE(t-分布邻域嵌入算法)对生成的向量数据进行降维分析及可视化。目标是通过诊断术语或检查类型的关键词,展示影像报告在向量空间中形成的聚类效应,从而体现报告间的语义相似性。
核心实验流程及发现
数据嵌入与聚类分析
通过句子嵌入,研究团队成功将211,813例影像报告转化为了向量空间数据。在t-SNE分析中,报告以关键词“肺癌”“乳腺癌”“淋巴瘤”等划分,表现出明显的语义聚类现象。例如,含有“肺癌”的报告形成了紧密的聚类,这与数据库中肺癌病例较为常见的特性一致。其他类别如“C-11 甲硫氨酸PET”与“Ga-68 PSMA-11 PET”也形成了各自的独立聚类。这一结果表明,句子嵌入模型对报告内容语义相似性的捕捉能力能够为后续基于病例相似性的检索打下扎实基础。
查询与诊断建议
通过模拟多种临床场景,研发的chatbot展示了回答复杂医学问题的能力。例如,当查询“乳腺癌合并到内乳区淋巴结的转移病例”时,系统能够准确定位相关病例,并展示关联患者病历中的关键细节。此外,对于复杂的影像描述,如“多个纵隔淋巴结糖代谢增高,无明确原发病灶”,系统生成了详细差异诊断清单,包括可能的疾病及其背景数据。
从医学专家的评价中,有84.2%的病例检索结果被三位医生一致认为相关性在“中等(fair)”以上,而其中78.9%的差异诊断建议获得了“中等或以上”评分。与不使用RAG的LLM模型相比,结合RAG框架后的模型在生成诊断建议的准确性上显著提升(Wilcoxon秩和检验,p<0.05)。
定量评价
研究团队通过ROUGE-L(基于最长公共子序列的文本相似度评价指标)测量生成结论的质量。结合RAG框架后,模型在生成医学报告结论的效果上显著优于不使用RAG的模型(ROUGE-L f分数:0.16 ± 0.08 vs. 0.07 ± 0.03,p<0.001)。
研究意义与未来展望
科学与临床意义
- 实践价值:本研究证明了将RAG框架和影像数据集结合,能够为核医学PET影像报告的生成提供切实可行的技术支持。这不仅提升影像诊断流程的效率,还可为复杂病例提供真实可靠的过往参考。
- 教育启发:通过快速引用类似病例和病程追踪结果,该系统为医学教育提供了高效案例学习的可能性。
- 个性化决策支持:尾随如此详尽数据库的上下文引用机制,为推动基于AI的医学影像定制化诊断与患者管理开辟了新路径。
研究亮点与挑战
本研究首次结合了大规模PET数据库与RAG模型的组合,呈现出模型对影像语义理解与问题解答的初步能力。此外,研究指出了现阶段模型的一些局限,例如稀有病例的检索表现偏弱。未来,模型可能通过设计专门针对稀有疾病的数据附加权重机制,并结合多模态分析(如影像与文本信息整合)进一步强化性能。
总结
总的来看,这项研究为人工智能技术在领域特定核医学应用中的广阔前景提供了有力支持。研究者通过结合RAG框架与PET影像报告数据库,展现了LLM在核医学诊断中的潜能。这一框架不仅能够改进影像报告生成,还显著促进差异诊断与相关病例检索的方便性,为实际应用中的决策支持提供了助力。随着更强大的模型和跨学科多模态分析能力的发展,类似系统在未来有望进一步推进精准医学与定制医疗服务的发展。