分享自:

利用大型语言模型从脑部MRI报告中生成诊断印象的多中心基准与读者研究

期刊:npj digital medicineDOI:https://doi.org/10.1038/s41746-026-02380-4

本研究的主要作者包括来自上海交通大学医学院附属第六人民医院放射科的 Ming-Liang Wang, Rui-Peng Zhang, Xiao-Er Wei, Zheng Sun, Bao-Hui Guan, Jun-Jie Zhang 及 Yue-Hua Li;来自江南大学附属无锡第二医院放射科的 Wen-Juan Wu 及 Lei Zhang;来自东南大学附属南通第一医院放射科的 Yu Lu 及 Tian-Le Wang;以及来自加州大学旧金山分校全球健康科学研究所的 Xue Wu。本研究以题为《Evaluation of large language models for diagnostic impression generation from brain MRI report findings: a multicenter benchmark and reader study》的论文形式,发表于 npj Digital Medicine 期刊(2026年第9卷,文章号187)。这是一本与首尔大学盆唐医院合作出版的同行评议开放获取期刊。

学术背景

本研究属于人工智能(AI)在医学影像学,特别是神经放射学领域的应用范畴。其核心科学问题是利用大型语言模型(LLM, Large Language Model) 来自动化生成脑部磁共振成像(MRI)报告的诊断印象。在临床实践中,解读脑部MRI对放射科医生,尤其是低年资医生而言是一项高负荷且具有挑战性的任务。医生能够识别和描述病灶,但汇总所有影像学表现并进行严谨的逻辑推理以得出精确诊断,是一项需要丰富经验的高阶认知能力。当前,随着AI技术的飞速发展,已有研究探索LLM在从影像学发现中生成放射学印象的潜力,但这些研究通常存在两大局限:一是数据集中疾病类别异质性代表不足;二是缺乏从临床视角出发的、精细化的疾病级别性能指标,这使得研究结果的临床可解释性和实际应用价值受限。因此,本研究旨在系统性地填补这一空白,评估多种LLM从脑部MRI报告发现中生成诊断印象的能力,并探索其在真实临床场景中的应用价值。具体研究目标包括:1)系统评估和比较10种不同架构和规模LLM的诊断性能;2)探索不同输入模态(自由文本 vs. 结构化报告,有无临床信息)对模型性能的影响;3)评估一种“前三名鉴别诊断”提示策略的效果;4)通过真实世界的阅片者研究,验证集成最佳LLM能否提升放射科医生(特别是低年资医生)的诊断准确性并缩短阅片时间。

详细研究流程

本研究设计严谨,分为基准研究(Benchmark Study)真实世界阅片者研究(Reader Study) 两大主体部分。

第一部分:基准研究 (n=4293份报告) 研究从中国三家医疗中心(上海六院、无锡二院、南通一院)回顾性收集了2019年至2023年间的4293份成人脑部MRI报告,共包含9973个已标注的神经疾病诊断标签,涵盖16个诊断类别(15种脑部疾病+正常)。这些报告代表了一组临床多样性高的人群,其中14.5%为增强扫描,52.5%来自住院患者。

  1. 数据处理与参考标准标注:首先,研究者使用 DeepSeek-V3 模型,通过零样本提示策略,将原始报告中的“发现”(Findings)部分结构化。结构化遵循固定标准,包括病变解剖位置、数量、形态、各序列(T1、T2、FLAIR、DWI)信号特征、病灶周围变化等。生成的“印象”(Impression)部分则被组织为[位置]+[疾病]的格式。随后,由两名具有10年和15年经验的神经放射科专家,在查阅所有相关医疗记录(包括病史、手术、实验室、病理及其他影像学资料)的基础上,对这些结构化印象进行审阅、精炼,形成最终的专家裁定诊断标签,作为评估模型性能的“金标准”。该结构化流程在500份报告的盲法验证中表现出高保真度,病例级完全匹配准确率达98.2%。

  2. 模型选择与评估:研究选取了10种不同架构和规模(8B至671B参数)的开源LLM,包括DeepSeek-R1 (671B)、Qwen3 (235B)、GPT-OSS (120B)、Llama3 (70B/8B)、DeepSeek-R-distill-Qwen (32B)、Qwen2.5 (32B)、MedGemma3 (27B)、Baichuan-M1 (14B)和WingPT2-Gemma2 (9B)。实验在配备8张NVIDIA H20 GPU的高性能集群上运行。

  3. 实验设计:研究设计了四种输入模态以评估其对诊断性能的影响:(1)仅原始自由文本发现;(2)原始自由文本发现+临床信息;(3)仅结构化发现;(4)结构化发现+临床信息。临床信息来自影像申请单中的简要病史。对于每种配置,模型被要求生成主要诊断及相应的推理过程。此外,研究还比较了两种提示策略:单一诊断提示前三名鉴别诊断提示。在后者中,模型需要输出三个最可能的鉴别诊断及其推理过程。评估采用严格的患者级完全匹配标准:只有当模型生成的全部诊断标签集合与金标准标签集合完全一致时,该病例才被判定为正确。对于多标签病例,要求模型输出n个排名列表,只有当所有金标准标签都出现在各自对应的前三名预测列表中时,才算正确。研究使用了灵敏度、特异度、患者级准确率、受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)等指标进行评估。

第二部分:真实世界阅片者研究 (n=500份报告) 从总数据集中随机选取500份报告进行阅片者研究,参与者包括3名低年资放射科医生(2-4年经验)和3名高年资放射科医生(9-12年经验)。

  1. 研究流程:研究采用两阶段交叉设计,中间有6周的洗脱期以减少记忆效应。第一阶段,阅片者在无AI辅助的情况下独立解读MRI报告发现并给出诊断。第二阶段,同一批阅片者在参考了 DeepSeek-R1(基准研究中表现最佳的模型)生成的诊断印象和推理过程后,重新解读相同的病例。所有病例顺序随机,并记录阅片时间。

  2. 自适应提示策略:为最大化LLM在临床实践中的效用,本研究在阅片者研究中采用了一种自适应提示策略。对于被定义为具有挑战性的病例(涉及脑挫伤、脑肿瘤、脑脓肿、脑出血、脑炎、炎症性脱髓鞘),模型被提示生成三个鉴别诊断;对于其他“简单”病例,则仅生成单一诊断。

主要研究结果

基准研究结果: 1. 模型性能比较:在所有评估的模型中,DeepSeek-R1 (671B) 在提供结构化发现和临床信息的情况下表现最佳。其整体灵敏度为89.6%,特异度为99.2%,患者级准确率为87.1%,AUROC为0.944,AUPRC为0.837。诊断性能遵循神经网络的缩放定律,模型规模越大,性能越好。小规模模型(<10B参数)的AUPRC仅约0.40,患者级准确率仅约30%,显示出在此复杂任务中有限的诊断效用。DeepSeek-R1在几乎所有疾病亚类和各个研究中心都保持了性能领先。

  1. 输入模态影响结构化发现结合临床信息的输入方式能带来最优诊断性能。与仅使用自由文本输入相比,DeepSeek-R1在使用“结构化+临床”输入后,灵敏度从72.7%提升至89.6%,AUPRC从0.617提升至0.837。这表明标准化、简明的结构化报告格式减少了语言歧义和数据噪声,而临床信息(如外伤史、肿瘤史)能为模型提供关键的诊断上下文,这与真实世界的临床决策过程相符。

  2. 提示策略比较前三名鉴别诊断提示策略显著优于单一诊断提示。其灵敏度从89.6%提升至99.0%,患者级准确率从87.1%飙升至97.6%,AUPRC从0.837提升至0.994。这种优势在具有挑战性的病例中尤为明显。平均倒数排名(MRR)显示,正确诊断通常被排在第一位,极少滑落至第二或第三位。这证明了LLM在为复杂病例提供鉴别诊断列表方面的强大能力。

真实世界阅片者研究结果: 1. AI辅助显著提升医生表现:集成DeepSeek-R1生成的诊断和推理后,放射科医生的整体诊断性能得到显著提升。灵敏度从83.7%提高至94.3%(+10.7个百分点),特异度从98.3%提高至99.4%(+1.1个百分点),患者级准确率从74.6%提高至90.6%(+16个百分点)。AUROC从0.910提升至0.969,AUPRC从0.774提升至0.893。同时,平均阅片时间从61秒缩短至53秒。

  1. 低年资医生获益更大:诊断准确性的提升在所有医生中均一致,但低年资医生获益最为显著。AI辅助不仅帮助他们纠正了因知识经验不足导致的复杂病例误诊,也提醒了他们因注意力分散或高工作负荷而忽视的简单病例错误。

  2. AI干预的有效性:在所有病例中,有25.6%(128/500)的诊断印象在AI支持下发生了改变。重要的是,其中81.25%(104/128)的改变是正确的修正,仅有18.75%是错误修改。低年资医生的诊断修改率(30.0%)高于高年资医生(21.2%),且大部分修改是正确的,说明AI为经验不足者提供了有价值的决策支持。

  3. 局限性案例:研究也注意到,AI辅助并未显著改善低年资医生对蛛网膜下腔出血(SAH)的诊断。这归因于SAH在MRI上常与其他颅内出血(如脑内出血、硬膜下血肿)并存,影像特征重叠,诊断复杂,LLM自身也可能误判,而经验不足的医生可能过度依赖模型输出,从而传播了错误。

研究结论

本研究表明,先进的LLM(如DeepSeek-R1)能够以较高的临床准确性从脑部MRI报告发现中生成放射学诊断印象。结构化报告格式和临床信息的结合是优化性能的关键。采用“前三名鉴别诊断”的提示策略,尤其适用于复杂病例,能大幅提升诊断召回率。在真实临床场景中,将此类AI框架整合到工作流中,不仅能作为高效的报告起草支持工具,减轻放射科医生的工作负担,更能作为宝贵的决策支持系统,特别是帮助低年资医生提升诊断信心和准确性,减少漏诊和误诊风险,并有望提高整体工作效率。

研究亮点

  1. 系统性评估与首创性:这是首个系统性评估多种LLM、多种提示策略、多种输入模态在从脑部MRI报告生成诊断印象方面性能的研究,填补了该领域临床导向、精细化评估的空白。
  2. 规模化与多中心设计:研究基于来自三家医疗中心的超4000份报告的大规模、多样化数据集,增强了结果的普遍性和临床相关性。
  3. 创新性工作流程:提出了结合报告结构化、自适应提示(简单病例单诊断,复杂病例三鉴别诊断)以及临床信息整合的完整技术框架。
  4. 临床实用性验证:不仅停留在基准测试,还通过严格的、包含高低年资医生的真实世界阅片者研究,量化证明了AI辅助对提升临床诊断性能和工作效率的切实价值,特别是对低年资医生的“赋能”作用。
  5. 深入的结果分析:不仅报告整体性能,还深入分析了不同疾病类别、不同难度病例、不同输入方式下的性能差异,并坦诚讨论了AI辅助的局限性(如对SAH诊断的挑战),为未来研究和临床部署提供了重要见解。

其他有价值的内容

研究还讨论了实际部署的可行性,指出通过云推理API服务,即使资源有限的机构也能以合理的延迟(首字延迟约0.6-0.8秒)使用该框架。同时,研究明确指出了自身的局限性,例如:未涵盖所有罕见脑部疾病;排除了诊断不确定的病例;数据来源于单一语言和文化背景(中文);当前框架依赖于医生生成的文本发现,而非直接解读图像,其向基于图像的端到端诊断工作流的泛化能力尚不确定。这些都为未来研究指明了方向,包括纳入更广泛的疾病谱、进行前瞻性临床试验、以及开发整合影像分析与文本推理的视觉-语言模型。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com