评估大型语言模型在急性缺血性卒中管理中的准确性与推理能力

分享自：
评估大型语言模型在急性缺血性卒中管理中的准确性与推理能力

影像医学与核医学
医学
期刊:J Neurointervent SurgDOI:10.1136/jnis-2026-025429
【点击此处】阅读全文、收藏及针对性提问
关于大型语言模型在急性缺血性卒中管理中表现评估的研究报告
本研究由来自法国和德国多个顶尖医疗中心的研究人员共同完成。主要作者包括Aymen Meddeb（法国兰斯大学医院神经放射科及德国柏林夏里特医学院神经放射科）、Navid Bakhtiari、Ida Rangus、Leonard Fetscher等人。合作机构涵盖法国兰斯大学医院神经放射科和神经内科、德国柏林夏里特医学院神经放射科、柏林卒中研究中心、法国里尔大学医院神经放射科以及德国慕尼黑工业大学诊断与介入放射学研究所。该研究已于2026年发表在《Journal of NeuroInterventional Surgery》期刊上，论文标题为“Evaluating accuracy and reasoning capabilities of large language models for acute ischemic stroke management”。
学术背景 本研究属于医学人工智能与临床神经病学/神经介入治疗的交叉领域，具体聚焦于急性缺血性卒中（Acute Ischemic Stroke, AIS）的紧急治疗决策支持。自2015年多项里程碑式临床试验以来，机械取栓术（Mechanical Thrombectomy, MT）已成为前循环大血管闭塞所致急性缺血性卒中的标准治疗方案。尽管卒中救治体系不断完善，建立了综合性卒中中心和多学科团队，但一个关键问题依然存在：大量卒中患者最初就诊于不具备神经介入或卒中专科能力的初级或非三级医疗中心。在这些机构中，临床医生需要在时间压力下，快速整合复杂的临床信息与影像学数据，以决定是否启动静脉溶栓（Intravenous Thrombolysis, IVT）和/或将患者转运至高级中心进行机械取栓。决策的延迟或不一致可能直接影响患者预后。
近年来，大型语言模型（Large Language Models, LLMs）在医学知识问答、诊断推理和临床数据解读方面展现出强大潜力。然而，其在急性卒中管理这种时间紧迫、决策复杂的真实临床场景中的应用价值尚未得到充分评估。急性卒中管理要求整合多模态数据、遵循不断更新的指南，并在严格的时间窗内做出稳健的临床判断，这与LLMs以往被测试的许多应用场景有本质不同。
基于此背景，本研究旨在系统评估当前先进的LLMs在急性缺血性卒中治疗决策（特别是IVT和MT的适用性判断）中的诊断准确性及推理能力。研究目标是将LLMs的表现与卒中专家（神经科医生和神经放射科医生）的判断以及真实世界的机构治疗决策进行基准比较，并深入分析其推理模式与错误来源，从而探究LLMs作为急性卒中分诊决策支持工具的可行性与可靠性。
详细研究流程 本研究是一项回顾性多中心研究，其工作流程可详细分为以下几个步骤：
研究队列与数据准备：研究纳入了来自两个欧洲综合性卒中中心的80例急性缺血性卒中病例。病例时间跨度为2023年9月至2024年2月。所有病例数据均经过去标识化处理，仅保留年龄和性别等基本人口学信息，符合伦理规范。研究人员将这些真实病例转化为结构化的临床情景描述（vignettes），其中包含的关键信息有：患者年龄、性别、既往病史、用药情况、美国国立卫生研究院卒中量表（NIHSS）评分、症状出现时间、初始影像学检查方式（CT或MRI）、阿尔伯塔卒中项目早期CT评分（ASPECTS）、血管闭塞部位以及侧支循环状态。这些情景描述构成了后续评估的基础数据。
大型语言模型评估：研究评估了四款先进的LLMs，分别是：DeepSeek R1、OpenAI o3-mini、Gemini 2.0 Flash和Llama 3.3-70B-Instruct。所有模型均于2025年3月使用固定版本进行访问。对于每个病例，研究人员使用一个标准化的提示词模板向每个模型提问。该模板设定模型角色为“卒中专家”，并提供了结构化的患者信息，然后要求模型“根据当前AIS指南，判断该患者是否应接受静脉溶栓、机械取栓或两者联合治疗，并提供详细的推理过程”。模型被指示提供治疗建议及临床理由。模型输出的治疗建议通过不区分大小写的关键词匹配进行自动提取（例如，输出中包含“thrombectomy”即视为推荐MT）。所有模型均未启用检索增强生成或网络搜索功能，完全依赖其内部参数化知识。
人类专家评估：作为对比基准，六名具有至少5年卒中诊疗经验的专家（两名神经科医生和四名神经放射科医生）独立审阅了相同的80份匿名临床情景描述。他们通过在线表单提交对每例患者IVT和/或MT适用性的判断。专家之间互不知晓他人的判断结果。
诊断准确性评估：研究的“金标准”定义为病例所在医疗机构记录在案的实际治疗决策。对于每个评估者（无论是LLM还是人类专家），分别计算其对于IVT和MT推荐的诊断准确率（即其建议与“金标准”一致的比例）。同时，还计算了Jaccard指数作为衡量预测治疗组合与真实治疗决策重叠程度的指标。此外，还使用Fleiss‘s Kappa评估了人类评估者之间的组内一致性。
LLM推理能力定性分析：这是本研究的核心创新部分，旨在超越简单的准确性比较，深入理解模型的决策逻辑。研究人员对所有LLMs产生的错误决策（假阳性和假阴性）进行了结构化的定性错误分析。两位评审员（一名三年资神经放射科住院医师和一名有9年经验的神经放射科顾问医生）独立审查每个错误案例，并将其归入以下四个互斥的错误类别之一：
忽略关键信息：模型未能纳入输入情景中明确提供的关键临床细节。
未遵循指南：模型的建议与根据所提供参数应适用的美国心脏协会/美国卒中协会（AHA/ASA）卒中治疗指南标准相矛盾。
临界病例误分类：涉及真实的临床模糊地带或“灰色区域”（如4.5小时扩展时间窗内的IVT资格、边界ASPECTS评分），即使专家之间也可能存在合理分歧的情况。
建议正确但与金标准不符：模型的建议与基于所提供临床参数的已发布指南标准一致，但却与机构的实际治疗决策不同。这很可能反映了治疗团队掌握但未包含在结构化输入中的额外信息（如患者意愿、未报告的合并症、实验室或影像学发现）。
主要研究结果 1. 患者队列特征：研究队列平均年龄68.7岁，男女比例接近1:1。患者具有典型卒中人群的血管危险因素特征（高血压70%）。中位NIHSS评分为11分，表明患者呈现中度至重度神经功能缺损。50%的病例初始影像为MRI，41%为CT。平均ASPECTS评分为8.2分，提示大多数患者基线影像的早期缺血改变有限。
人类专家表现：神经科医生对MT和IVT的判断准确率分别为81%和80%。神经放射科医生的准确率分别为84%和76%。在MT决策上，神经科医生和神经放射科医生组内的一致性均为中等水平（Kappa值分别为0.618和0.595）。在IVT决策上，神经科医生之间的一致性较高（Kappa=0.725），而神经放射科医生之间的一致性仅为一般水平（Kappa=0.374）。这一差异反映了IVT决策的复杂性以及不同专科医生对溶栓方案熟悉程度的可能差异。
LLMs诊断准确性：在所有模型中，DeepSeek R1在MT判断上取得了最高的准确率，达到87%（95% CI: 0.80-0.94），其IVT准确率为78%。OpenAI o3-mini的MT准确率为80%。Gemini 2.0和Llama 3.3在IVT判断上准确率较低，分别为65%和63%。一个普遍的趋势是，无论是人类专家还是LLMs，对MT的判断准确率均高于对IVT的判断准确率。这突显了IVT决策需要整合更多竞争性因素（如禁忌症、合并症、抗凝状态、时间窗的细微差别），因而更为复杂。
LLMs推理错误分析：错误分析揭示了MT和IVT决策中截然不同的模式。
对于机械取栓（MT）：大多数LLM的输出没有推理错误（无错误率从Llama 3.3的79%到DeepSeek R1的89%）。最常见的错误类别是“建议正确但与金标准不符”，占所有MT案例的8%至15%。其次是“临界病例误分类”（1-5%）。“未遵循指南”的情况很少见（%），没有出现“忽略关键信息”的错误。这表明LLMs能够可靠地掌握MT决策的核心标准（如大血管闭塞、时间窗），其与真实决策的差异更多源于信息不对称，而非逻辑缺陷。
对于静脉溶栓（IVT）：推理错误的比例略高，“无错误”率在64%（Llama 3.3）到79%（DeepSeek R1）之间。“建议正确但与金标准不符”的错误占11-18%。“未遵循指南”是IVT错误中的一个显著问题，在Gemini 2.0和Llama 3.3中高达20%。“忽略关键信息”和“临界病例误分类”则较为罕见。这表明某些LLMs在整合IVT禁忌症和处理边界案例场景方面存在不足。
研究结论 本研究表明，大型语言模型在急性缺血性卒中治疗决策制定中，特别是在机械取栓的适用性判断上，能够达到专家级别的性能水平，并能提供可解释的推理过程。这些发现支持对基于LLM的决策支持系统进行进一步的前瞻性验证，并提示此类系统有潜力在急性卒中分诊中辅助临床决策，尤其是在无法立即获得专科医生支持的医疗环境中（如初级卒中中心、夜间或远程会诊）。LLMs能够生成透明解释并引用指南依据的能力，是其相较于传统“黑箱”AI模型的关键优势，有助于建立临床信任、便于验证，并具有教育价值。
研究亮点 1. 研究设计与对比基准的全面性：本研究不仅将LLMs的表现与“金标准”（真实机构决策）比较，还引入了多学科人类专家（神经科与神经放射科）作为平行对比组，并分析了专家间的一致性，为理解LLMs性能提供了丰富的临床背景和参照系。 2. 超越准确性，深入分析推理过程：研究的核心创新在于系统性的定性错误分析。通过将LLMs的错误归类，研究揭示了模型在不同类型决策（MT vs. IVT）中的失败模式，区分了是模型逻辑错误、指南知识不足，还是源于输入信息与真实临床情境之间的差距。这种分析对于评估LLMs临床应用的可靠性和安全性至关重要。 3. 聚焦高价值临床场景：研究针对的是急性缺血性卒中这一时间紧迫、决策复杂且对预后影响重大的真实世界临床难题，其研究成果具有明确的临床转化潜力和应用价值导向。 4. 对“金标准”的批判性思考：研究在讨论中明确指出，将机构决策作为“金标准”存在局限性。部分被归类为LLM错误（特别是“建议正确但与金标准不符”类别）的案例，可能实际上是LLM基于有限信息做出了符合指南的推荐，而真实世界的决策则包含了未在输入中体现的额外临床考量（如患者意愿、卒中前功能状态mRS、INR值等）。这一见解对未来类似研究的设计（如采用基于明确指南标准的专家共识作为参考标准）具有重要指导意义。
其他有价值内容 研究也指出了自身的局限性，包括回顾性设计可能引入偏倚、模型性能不均衡且泛化能力有待在不同医疗体系中验证、缺乏评估LLM输出事实正确性的标准化定量指标、以及所引用的指南版本（主要基于2018/2019 AHA/ASA标准）可能未涵盖最新更新（如2026年指南）。此外，研究中后循环卒中病例数量较少（12.5%），未进行单独分析，而后循环卒中的决策更为复杂，LLMs在该亚组中的表现可能需要专门评估。这些局限性为未来研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问