评测开源大语言模型在1933例欧洲放射病例中的诊断性能

分享自：
评测开源大语言模型在1933例欧洲放射病例中的诊断性能

期刊:npj digital medicineDOI:10.1038/s41746-025-01488-3
大型语言模型在放射学诊断中的性能评估：一项基于1933例Eurorad病例的开放与闭源模型基准测试研究
一项发表于 npj Digital Medicine (2025年) 的研究，由来自德国慕尼黑工业大学医学与健康学院Klinikum rechts der Isar医院诊断与介入神经放射科的Su Hwan Kim博士领衔，联合了该大学及德国心脏中心慕尼黑的十位研究者共同完成。这项题为“Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports”的研究，系统性地评估了十五种开源大型语言模型（Large Language Models，LLMs）和一种闭源模型（GPT-4o）在放射学鉴别诊断任务中的表现。
学术背景与研究目标 该研究属于医学人工智能，特别是语言模型辅助临床决策支持的前沿交叉领域。随着人工智能技术的飞速发展，LLMs在医学诊断领域展现出巨大潜力，已能应用于制定检查方案、进行鉴别诊断、生成报告及从自由文本报告中提取信息等任务。然而，此前研究主要依赖于GPT-4、Claude 3、Gemini等闭源、所有权模型。这些模型通常需通过API或网络接口使用，存在将敏感患者数据传输至第三方服务器的隐私风险，且可能受商业更新周期限制并伴随较高的长期成本。开源模型为医疗机构提供了替代方案，可实现数据本地化部署，规避隐私风险，确保访问连续性，并可能降低成本。尽管过往开源LLMs在临床决策支持任务中表现不佳，但最新的开源模型如Meta的Llama-3在放射学委员会式答题等任务中已显示出媲美顶尖闭源模型的性能。然而，这些模型在真实世界临床病例中的诊断准确性仍未被充分探索。本研究的目标正是填补这一空白，旨在使用欧洲放射学会管理的同行评审放射学病例报告库Eurorad，评估最先进的开源LLMs在放射学诊断任务中的性能。
详细研究方法与流程 本研究包含以下几个关键步骤，构成了一个从数据准备、模型评估到结果分析的系统性工作流。
1. 数据集构建与筛选 首先，研究者从Eurorad库中自动检索了4827份病例报告，内容包括“临床病史”、“影像学表现”、“最终诊断”和“所属专业领域”。为避免模型仅从描述中直接提取答案而非进行推理，他们开发并应用了一种基于LLM的自动化过滤方法。利用当时最先进的开源模型Llama-3-70b作为“法官”，评估每个病例的临床病史和影像学描述部分是否明确提及了最终诊断。通过向模型发出明确的指令（作为高级放射科医生，检查诊断是否在描述中被提及、讨论或暗示），并根据其“提及”或“未提及”的回答，排除了2894份已包含诊断信息的病例。最终，形成了一个包含1933例真正具有挑战性、需要推理能力的病例数据集。这些病例涵盖了神经放射学、腹部影像、肌骨系统、胸部影像等各个亚专业，其中神经放射学病例占比最高（21.4%），而乳腺成像和介入放射学相对占比较少，这大致反映了临床实践中不同亚专业的分布情况。此外，为评估模型在非公开数据上的泛化能力并应对可能的数据污染问题，研究还使用了一个来自三级医院的60例非公开脑部MRI病例的本地数据集，其真实诊断由组织病理学或至少两名神经放射科医师根据临床随访信息一致确认。
2. LLMs选择与实验设置 研究选取了十五个领先的开源LLMs和一个作为基准的闭源模型GPT-4o进行评估。选中的开源模型涵盖了领先开发者的通用模型和基于Hugging Face平台下载热度选择的顶尖医学微调模型。所有开源模型均在本地运行，使用基于“llama_cpp_python”库的工作流，加载量化版本以减少内存占用，并将模型完全卸载至GPU以加速计算。为确保结果的可重复性，温度参数设为0以获得确定性响应，并将上下文窗口限制在1024个词元以内。GPT-4o则通过其官方API访问。研究人员为每个模型设计了一个标准化的提示词，要求模型扮演一名高级放射科医生，根据提供的“临床病史”和“影像学表现”，给出三个最可能的鉴别诊断，并附上简短理由。
3. 自动化响应评估与验证 为应对大规模评估（16个模型 × 1933个病例 ≈ 30928个回答）的人工评估难题，研究者再次创新性地采用了“LLM-as-a-judge”范式，使用Llama-3-70b作为自动化评估员来判断模型的每个回答是否正确。具体方法是，将“真实诊断”和LLM给出的三个诊断建议输入给作为“法官”的Llama-3-70b，指令其判断LLM是否在其建议中包含了正确诊断，并仅回答“正确”或“错误”。为了验证这种自动化评估的可靠性，研究设计了一个校准步骤：三位经验丰富的放射科医师（其中两人有10年经验）对140个LLM回答样本进行了人工标注，形成“地面真相”。结果显示，Llama-3-70b“法官”在这140个样本上的判断准确率为87.8%。此外，在三位放射科医师共同评估的20个重叠样本中，他们之间的一致率达到100%。这种高度的医-机一致性和医生间完全共识，支持了使用Llama-3-70b作为大规模评估自动“法官”的有效性。在后续的统计分析中，研究者根据这个准确率对模型性能评估的标准误进行了调整，以纳入自动化评估本身的不精确性。
4. 对照评估与统计分析 针对本地脑MRI数据集，研究邀请了两位神经放射科医师（Reader 1有2年经验，Reader 2为有4年经验的认证专家）在仅阅读文本描述（与LLMs条件一致）的情况下提供最多三个鉴别诊断，以建立人类表现的基准。研究最终计算了每个模型在不同亚专业和整体上的诊断正确率（定义为真实诊断出现在模型给出的前三个建议中）。同时，通过计算Pearson相关系数评估了模型参数量与诊断准确性之间的关系，并比较了通用模型与医学微调模型之间的性能差异。
主要研究结果 本研究获得了关于开源LLMs在放射学鉴别诊断任务中性能的多个关键发现。
结果1：模型整体性能排名与领先者 在包含1933个病例的Eurorad数据集中，GPT-4o展现了最佳的诊断性能，总体正确率为79.6%（95% CI: ±2.3%）。在所有开源模型中，Meta-Llama-3-70b表现最为突出，总体正确率达到73.2%（±2.5%），显著超越了其他开源竞争者，例如紧随其后的Mistral-Small（63.3%）、Qwen2.5-32b和OpenBioLLM-Llama-3-70b（均为62.5%）。表现最差的是MedAlpaca-13b（34.0%）和Meditron-7b（44.3%）。值得注意的是，Meta-Llama-3-70b的性能远优于其前代模型Meta-Llama-2-70b，显示出LLM架构的快速进步。
结果2：在不同放射学亚专业中的表现差异 模型在各个亚专业中的诊断准确度存在显著差异。总体而言，所有模型在介入放射学（67.8%）、心血管成像（62.5%）和腹部成像（60.5%）中表现最佳；而在乳腺成像（50.0%）和肌骨成像（50.4%）中表现相对较差。GPT-4o在除介入放射学外的所有亚专业中都保持领先。这些差异可能反映了不同亚专业病例的内在复杂性、病例描述的质量或特异性，或者模型训练数据中存在的潜在偏差。
结果3：本地数据集上的泛化性能 在60例非公开脑MRI数据集的测试中，观察到了类似的趋势：GPT-4o（76.7%）和Llama-3-70b（71.7%）再次领先。人类专家Reader 2表现最佳（83.3%），Reader 1（75.0%）则与这两个顶级模型表现相当。然而，部分模型在本地数据集上的性能出现了显著下降（例如，Llama-2-70b从Eurorad数据集的47.8%降至31.7%），降幅最高达16%。这种下降可能归因于本地数据集的特殊性或模型训练数据与公开数据的不同分布，但主要模型排名基本稳定，这在一定程度上缓解了对数据污染（即训练数据中包含测试数据）可能导致结果虚高的担忧。
结果4：模型大小、医学微调与性能的关系 分析发现，模型参数量与诊断准确度之间存在中等程度的正相关（Pearson r=0.54）。这表明，一般而言，模型越大性能越好。但也有例外，如参数量较小的Meta-Llama-3-8b表现优于参数量更大的Llama-2-70b，显示架构和训练数据的质量同样关键。一个更具挑战性的发现是，使用生物医学语料进行领域适应性预训练的医学微调模型，其表现反而普遍低于同尺寸的通用基础模型。例如，OpenBioLLM-Llama-3-70b（62.4%）和OpenBioLLM-Llama-3-8b（45.4%）的表现均不如其对应的基础模型Meta-Llama-3-70b（73.2%）和Meta-Llama-3-8b（56.4%）。这一结果挑战了“医学微调必然提升模型在医学任务上表现”的普遍假设。
结论与研究价值 本研究的核心结论是，开源LLMs，尤其是Meta的Llama-3-70b，在基于放射学病例描述进行鉴别诊断的任务中，展现出接近甚至媲美顶尖闭源模型GPT-4o的性能，显示出开源模型正快速缩小与所有权模型的差距。这种水平的表现是在一个包含复杂、多样化真实世界病例的挑战性数据集上取得的，且其准确率与经验丰富的放射科医生相当。这凸显了开源LLMs作为放射学鉴别诊断决策支持工具的潜力。从科学价值看，本研究为评估LLMs在临床诊断中的性能提供了大规模、系统性的基准测试方法，特别是创新性地使用LLM来自动化评估LLM响应，使得分析数千个病例成为可能。研究还揭示了模型性能在不同亚专业间的差异、模型大小与性能的关联，以及医学微调模型的意外表现等新现象，为后续研究指明了方向。从应用价值看，开源模型为医疗机构提供了一种能够在本地部署、保护数据隐私、降低长期成本且性能优异的AI决策支持工具选项，尤其适合资源受限的医疗环境。较小的模型如Llama-3-8b也展现出强劲表现，进一步提高了在资源有限场景下部署的可行性。
研究的亮点 核心发现亮点： 首先，研究明确揭示了开源LLMs在放射学诊断领域的强大竞争力，Llama-3-70b作为开源代表，其表现已直逼业界标杆GPT-4o。其次，研究发现“医学微调”模型未必优于通用模型，这一反直觉的结果对当前医疗AI模型的训练策略提出了重要反思。第三，研究指出了LLMs在不同放射学亚专业存在明显的性能差异，这为未来针对特定领域优化模型提供了依据。 方法学亮点： 研究设计了严谨且高效的评估工作流：1）利用LLM自动过滤出“真正需要推理”的病例，确保测试难度；2）创新性地大规模采用“LLM-as-a-judge”范式进行自动化评估，并结合人类专家校准来量化并修正自动化评估的误差，巧妙地解决了大规模评估的可行性问题；3）同时使用公开数据集和非公开本地数据集进行评估，不仅提供了基准，也初步探索了模型的泛化能力和数据污染的可能性。 研究目标特殊性： 本研究聚焦于“开源”模型这一在隐私保护和长期可持续性方面具有独特优势的类别，并对15个主流开源模型进行了头对头的系统性比较，这在现有文献中较为少见。此外，研究评估的是模型在开放式文本生成任务（生成鉴别诊断列表）上的能力，这比传统的选择题评估更能反映模型在真实临床决策中的潜力。
其他有价值的讨论与展望 文章在“讨论”部分深入探讨了研究结果对临床实践的广泛意义与挑战：首先，LLMs在放射学中最现实的角色是作为增强医生能力的工具，而非独立诊断者。一个关键风险是自动化偏见，即医生可能过度依赖AI建议而放弃批判性思考。然而，若善加利用，LLMs也可能通过提供不同视角来帮助减少医生的认知偏见。其次，开源LLM的本地部署面临着技术和基础设施的挑战，需要足够的IT专业知识和硬件支持，PACS、RIS或EHR系统供应商的整合至关重要。第三，从医疗系统角度，需要对LLM部署的成本效益、监管框架以及患者对AI辅助诊断的接受度进行深入研究。 研究也坦诚地指出了局限性：无法完全排除数据污染的可能性；使用LLM作为评估者虽提高了可扩展性但牺牲了部分准确性（已通过统计方法调整）；未评估能同时处理文本和图像的多模态视觉语言模型；未探索温度参数和提示词设计对性能的影响；以及病例描述本身可能存在偏向性（因为撰写者已知诊断）。 总而言之，这项研究有力地证明了高性能开源LLMs在辅助放射学鉴别诊断方面的可行性和潜力，为下一代临床决策支持系统的开发与应用奠定了重要的实证基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问