分享自:

AI辅助非增强CT检测大血管闭塞:多国验证与阅片者研究

期刊:Journal of NeuroInterventional SurgeryDOI:10.1136/jnis-2026-025339

一项关于AI辅助非增强CT检测大血管闭塞的多国验证与读者研究

本研究的主要作者为Leonard Sunwoo、Wi-Sun Ryu等,通讯作者为Beom Joon Kim教授和Chi Kyung Kim教授。作者团队来自多个机构,包括韩国首尔国立大学盆唐医院、韩国大学九老医院、美国麻省总医院、布莱根妇女医院以及韩国JLK公司等。该研究于2026年发表在《Journal of NeuroInterventional Surgery》期刊上,目前为在线优先发表。

学术背景 本研究属于医学影像与人工智能交叉领域,具体聚焦于急性缺血性卒中(ischemic stroke)的早期诊断与分诊。在急性缺血性卒中中,大血管闭塞(Large Vessel Occlusion, LVO)是导致严重残疾和死亡的主要原因,及时的血管内取栓治疗(endovascular thrombectomy)是改善预后的关键。虽然CT血管成像(CT Angiography, CTA)是诊断LVO的金标准,但其存在检查延迟、造影剂禁忌症以及并非在所有医疗机构都普遍可用等问题。因此,非增强CT(Non-Contrast CT, NCCT)仍然是急诊环境下首选的筛查工具。然而,仅凭NCCT图像,临床医生(尤其是非专科医生)识别LVO存在困难,研究显示高达21%的卒中可能被误诊,错失治疗良机。

为了弥补这一诊断鸿沟,基于NCCT的AI算法应运而生,作为潜在的快速分诊工具。然而,将这些算法整合到常规临床实践中面临两大关键挑战:第一,许多现有工具的泛化能力存疑,它们大多基于单一中心的数据集开发,其在不同扫描设备、不同患者群体中的鲁棒性有待验证;第二,关于这些工具能否在实际临床环境中切实提升不同经验水平医生的诊断性能,证据仍然匮乏。以往的研究多集中于基于CTA的AI检测方法,而基于NCCT的检测则针对CTA延迟、不可用或未进行的情况,满足了一种互补的临床需求。

基于此,本研究旨在:1)在多国队列(韩国和美国)中验证一种基于机器学习的LVO检测算法;2)通过一项多读者、多病例的交叉研究,评估AI辅助是否能实质性提高临床医生的诊断准确性。

详细研究流程 本研究是一项回顾性研究,包含两个主要部分:AI算法的独立性能验证,以及评估AI辅助对医生诊断性能影响的读者研究。

第一部分:研究人群与AI算法独立验证 1. 研究队列:研究使用了两个独立的多国队列。 * 韩国队列:为连续纳入的队列,来自两家卒中中心(2021年1月至2024年6月)。共纳入723名患者(男性415人,平均年龄69.4岁),其中127例为LVO阳性,503例为非LVO卒中,93例为非卒中对照。纳入标准为出现急性神经系统症状且在症状出现24小时内完成头部NCCT检查,并随后进行了CTA或弥散加权磁共振成像(DWI)作为参考标准。 * 美国队列:为外部验证队列,采用病例-对照设计,从SegMed公司获取。共纳入240名受试者(男性110人,平均年龄67.8岁),其中LVO阳性和阴性各120例。该队列旨在测试算法在技术和人口统计学差异上的泛化能力,而非依赖患病率的临床效用。

  1. 参考标准:LVO定义为颅内颈内动脉或大脑中动脉M1/M2段的闭塞。参考标准由三位经验丰富的专家(神经科医生和神经放射科医生)根据NCCT后24小时内进行的多模态影像(CTA、MRA、DSA或DWI)达成共识确定。

  2. AI算法:研究使用了一款经过验证的基于机器学习的软件(JLK CTL)。该软件首先对NCCT图像进行预处理(包括去颅骨和仿射配准),然后将大脑分割为四个改良的Alberta卒中项目早期CT评分区域。从每个双侧区域对中,软件提取四个手工设计的特征,以反映早期缺血改变:1)量化双侧半球平均亨氏单位差异的“非等价性评分”;2)代表相对密度变化的“净水摄取”;3)捕捉半球肿胀的“体积比”;4)亨氏单位分布的标准差比。此外,软件还使用基于U-Net的深度学习算法自动检测高密度动脉征(hyperdense artery sign)并将其作为二元特征加入。最终,每个扫描产生17个输入特征。研究选择Extratrees集成分类器作为最终模型,因为其在开发和外部验证数据集中表现出最一致的性能。模型输出一个0到100之间的LVO可能性评分,并在预设的截断值(12.0,由开发数据集通过约登指数确定)处生成二元预测(LVO阳性/阴性)。

  3. 独立性能评估:在两个队列中,使用受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC)、敏感性和特异性来评估算法的独立性能。在美国队列中,还将AI的性能与五位美国委员会认证的放射科医生(两位普通放射科医生和三位神经放射科医生)的集体表现进行了比较。

第二部分:关键读者研究 1. 研究设计:采用多读者、多病例交叉研究设计,使用韩国数据集来评估临床效用。 2. 参与者:八名医生参与,包括神经科住院医师、放射科住院医师、神经科医生和神经放射科医生各两名。 3. 研究流程: * 第一轮阅读(无AI辅助):医生仅根据NCCT图像独立评估每个病例,判断是否为LVO,并给出五级置信度评分(1=极不可能,2=不太可能,3=可能,4=很可能,5=提示LVO)。置信度1-2级归类为LVO阴性,3-5级归类为LVO阳性。未提供临床信息。 * 洗脱期:至少间隔3周,以减少记忆效应。 * 第二轮阅读(有AI辅助):同一批医生重新阅读相同的病例集,但此次同时提供AI的输出结果,包括二元预测、连续的可能性评分以及突出显示预测贡献区域的可视化图。 4. 临床效用模拟与数据分析: * 诊断性能比较:使用Obuchowski–Rockette方法比较有/无AI辅助下的诊断性能(AUC、敏感性、特异性)。 * 效用量化:模拟AI输出用于重新评估初始诊断的工作流程。计算了净重分类改善指数(Net Reclassification Improvement, NRI)、需筛查数(Number Needed to Screen, NNS)和益害比(Benefit-to-Harm Ratio, BHR)。NNS指为预防一个漏诊的血栓切除术候选者需要分析的扫描数量。 * 自动化偏倚与锚定效应评估:将AI辅助阅读的决策变化分类为“正向咨询”(从不正确变为正确,且AI正确)、“负向咨询”(从正确变为不正确,且AI错误)或“无变化”。计算了“依赖水平益害比”(正负向咨询次数比)。通过线性模型评估了锚定效应(读者自身初始判断与AI预测对最终置信度的影响)。 * 误分类分析:对AI算法错误分类的病例进行了分析,探讨了假阳性和假阴性的可能原因。

主要研究结果 1. AI算法独立性能: * 在美国队列中,AI的AUC为0.899(95% CI:0.858–0.939),敏感性为0.792,特异性为0.933。AI的性能显著优于五位放射科医生的集体表现(所有比较p<0.001)。 * 在韩国队列中,AI的AUC高达0.963(95% CI:0.946–0.975),敏感性为0.874,特异性为0.916,同样优于本地读者。 * 算法的鲁棒性在不同性别、种族、CT制造商和扫描层厚等变量下均保持稳定。即使将参考影像的时间窗限制在NCCT后3小时或6小时内,AI性能也基本不变,表明24小时的时间窗未引入显著偏倚。

  1. 读者研究结果(AI辅助效果)

    • 总体性能提升:AI辅助显著提升了所有医生组的诊断性能。所有医生的汇总AUC从0.718提高到0.852(p<0.001)。汇总敏感性从46.6%显著提高到63.7%,汇总特异性从91.9%提高到94.9%(均p<0.001)。
    • 不同经验医生的获益
      • 神经科住院医师:获益最大,AUC从0.695提升至0.880,敏感性从48.0%提升至76.0%。
      • 神经放射科医生:AUC从0.693提升至0.804,敏感性从41.7%提升至61.0%,特异性也同步提高。这表明AI起到了“专家第二双眼睛”的作用,提示重新评估可能被遗漏的细微闭塞。
      • 放射科住院医师:敏感性有提升趋势但未达统计学显著性(p=0.078),AUC和特异性均有显著提升。
    • 诊断信心:在有AI辅助的情况下,医生对LVO阳性和阴性病例的诊断信心均有所提高。
  2. 临床效用模拟结果

    • 在韩国队列观察到的17.6%的LVO患病率下,AI辅助带来了5.5%的NRI,对应的NNS为18.2(95% CI:15.3–22.5)。这意味着大约每分析18个NCCT扫描,AI辅助就能帮助避免漏诊一个血栓切除术候选者。
    • 病例水平益害比(BHR)为2.89(95% CI:2.36–3.60),意味着每引入一个新的诊断错误,大约能纠正2.9个原有错误。
    • 患病率敏感性分析显示,在所有临床合理的患病率(1%-50%)范围内,NRI和BHR均有利于AI辅助。
  3. 自动化偏倚与锚定效应

    • 在所有5784次AI辅助阅读中,仅发现48次负向咨询(总体发生率0.83%),而正向咨询有444次。依赖水平益害比高达9.25,意味着AI每导致一个读者错误,大约能纠正九个错误。
    • 锚定分析显示,读者自身初始判断的标准化系数(0.481)高于AI二元预测的系数(0.408),表明读者自身的判断仍然是主导因素。
    • 值得注意的是,91%的AI相关获益归因于正确的AI指导,而只有29%的AI相关损害归因于错误的AI,表明大多数有害的决策转变反映了读者层面的因素,而非AI的误导。
  4. 误分类分析

    • 假阳性:主要由点状动脉钙化(模仿高密度动脉征)或非LVO病变(如慢性梗死、静脉血栓、不对称血管密度)引起。
    • 假阴性:主要发生在成像时间非常早(发病到扫描时间短)或缺血核心体积很小的患者中,导致NCCT上缺血征象细微或缺失。

研究结论 这项多国验证研究证实,该基于机器学习的LVO检测算法在NCCT上是一个鲁棒且泛化能力强的工具。AI辅助显著提高了临床医生对NCCT上LVO检测的敏感性和诊断准确性,尤其是在经验较少的医生中效果更为明显。研究结果表明,该算法有潜力作为急性卒中分诊工作流程中的辅助诊断工具,特别是在神经放射学专业知识有限的临床环境中,有助于减少LVO的漏诊,缩小受训者与专家之间的诊断差距,并可能加速治疗决策。然而,算法的性能仍受限于NCCT成像方式本身固有的局限性。需要进行前瞻性研究来评估其对治疗时间和患者最终预后的影响。

研究亮点 1. 多国验证与强泛化性:研究在来自韩国(连续队列)和美国(病例-对照队列)的不同人群中验证了AI算法,证明了其跨越种族和技术差异的稳健性能(AUC分别为0.963和0.899),克服了单中心研究的局限性。 2. 严谨的临床效用评估:不仅评估了算法的独立性能,还通过精心设计的、包含洗脱期的多读者交叉研究,量化了AI对真实临床医生诊断性能的实质性提升,提供了强有力的“AI辅助人类”有效性的证据。 3. 深入的效益-风险量化:引入了NNS(需筛查数)、病例水平BHR(益害比)和依赖水平BHR等指标,将统计学显著性转化为临床相关性,直观地展示了AI辅助的净收益(例如,每18个扫描避免一个漏诊)和极高的安全性(依赖水平益害比达9.25)。 4. 对自动化偏倚的细致分析:研究不仅关注性能提升,还专门评估了自动化偏倚和锚定效应。结果发现负向咨询率极低,且读者的自主判断仍占主导,这支持了将该工具部署为“安全网”而非替代人类判断的合理性。 5. 针对不同用户群体的价值:研究揭示了AI对不同经验水平医生的差异化价值:对专家而言是提高敏感性的“第二双眼”,对住院医师而言是显著提升诊断能力、缩小与专家差距的“均衡器”,具有重要的临床培训意义。

其他有价值的内容 研究在讨论部分将本算法与另一款已发表的NCCT-based AI工具(Brainomix)进行了间接比较,指出本算法可能因使用了结合半球密度不对称性和血栓征象的多种手工设计特征,而表现出更高的AUC和敏感性。同时,研究也客观讨论了NCCT-based AI检测的临床价值不仅限于无法进行CTA的场景,即使在高级卒中中心,NCCT与CTA顺序采集导致的延迟以及急诊室对不典型卒中的初始误诊,都使得基于NCCT的AI分诊具有广泛的互补应用前景。研究还坦诚地指出了局限性,包括回顾性设计、美国队列非连续性的特点、读者研究仅在韩国队列进行、LVO定义限于前循环等,为未来研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com