人工智能辅助非增强CT检测大血管闭塞的多国验证与读者研究
一、 主要作者与发表信息 本研究由 Leonard Sunwoo(首尔大学盆唐医院)、Wi-Sun Ryu(JLK公司)、Karen Buch(麻省总医院)、John Conklin(麻省总医院)、William Mehan(麻省总医院)、Matthew Nicholas DeSALVO(布莱根妇女医院)、Erik Loken(布莱根妇女医院)、Sandra Rincon(麻省总医院)、Tatiana Rocha(布莱根妇女医院)、Marc Succi(麻省总医院)、Myungjae Lee(JLK公司)、Dongmin Kim(JLK公司)、Nak-Hoon Kim(首尔大学盆唐医院)、Jung-Hoon Han(高丽大学九老医院)、Kyubong Lee(高丽大学九老医院)、Younbeom Jeong(首尔大学盆唐医院)、Hyesu Yun(高丽大学九老医院)、Gwanhu Kim(首尔大学盆唐医院)、Byeongcheon Lee(首尔大学盆唐医院)、Yoona Ko(首尔大学盆唐医院)、Cheolho Kwon(首尔大学盆唐医院)、Roh-Eul Yoo(首尔大学医院)、Philip Gorelick(西北大学范伯格医学院)、Hee-Joon Bae(首尔大学盆唐医院)、Chi Kyung Kim(高丽大学九老医院)、Beom Joon Kim(首尔大学盆唐医院)等学者共同完成。该研究作为原创性研究论文,于2026年发表在《Journal of NeuroInterventional Surgery》期刊上(在线首发,DOI:10.1136/jnis-2026-025339)。
二、 学术背景与研究目的 本研究属于急性缺血性卒中神经影像学与人工智能交叉领域。其背景在于,早期识别大血管闭塞(Large Vessel Occlusion, LVO)是进行时间敏感性血管内血栓切除术(Endovascular Thrombectomy, EVT)的前提。虽然CT血管造影(CT Angiography, CTA)是诊断LVO的金标准,但其存在获取延迟、造影剂使用限制以及并非在所有医疗机构都普及的问题。因此,非增强CT(Non-Contrast CT, NCCT)仍然是急诊卒中分诊中最常用、最快速的初始影像学检查。然而,在急诊环境下仅凭NCCT诊断LVO具有挑战性,研究表明高达21%的卒中可能被临床医生漏诊或误诊,尤其是当症状不典型或由非专科医生评估时,错失诊断将不可逆转地影响神经功能结局。
为了弥补这一诊断鸿沟,基于NCCT的人工智能(Artificial Intelligence, AI)算法作为潜在的辅助分诊工具应运而生。然而,将这些AI工具整合到常规临床实践中面临两大关键障碍:首先,许多现有工具的可推广性存疑,因为它们大多基于单一中心的数据集开发,其在不同扫描设备厂商和患者人群中的稳健性令人担忧;其次,关于这些工具能否真正提升临床医生(尤其是不同经验水平的医生)在真实世界高压环境下的诊断性能,其切实的临床效用证据仍然匮乏。既往研究主要集中在基于CTA的AI检测方法,而基于NCCT的检测则针对CTA延迟、不可用或未采集的临床场景,具有互补价值。
因此,本研究旨在解决上述未满足的临床需求,具体目标为:1)使用来自韩国和美国的不同队列,对一种基于机器学习的LVO检测算法进行多国验证,评估其独立诊断性能及泛化能力;2)通过一项多读者、多病例的交叉研究,评估AI辅助是否能切实提升神经科医生和放射科医生的诊断准确性和决策能力,并量化其临床效用。
三、 详细研究流程 本研究是一项回顾性研究,包含两个主要部分:AI算法的独立性能验证和AI辅助的读者研究。
第一部分:研究人群与AI算法独立验证 1. 研究队列: 研究使用了两个独立的多国队列。 * 韩国队列(连续队列): 从两家卒中中心(首尔大学盆唐医院和高丽大学九老医院)在2021年1月至2024年6月期间连续纳入患者。纳入标准为出现急性神经功能缺损症状,并在症状出现后24小时内完成头部NCCT检查,随后进行了CTA(疑似卒中)或弥散加权磁共振成像(Diffusion Weighted Imaging, DWI, 作为对照组)。排除标准包括存在慢性无症状性LVO、DICOM文件损坏或无法分析、图像存在严重运动或金属伪影、NCCT扫描层面缺失、或人口统计学/影像学元数据不完整。最终纳入723名受试者(男性415人,平均年龄69.4±13.6岁),其中127例为LVO阳性,503例为非LVO卒中,93例为非卒中对照。 * 美国队列(病例对照队列): 从SegMed公司获取,用于外部验证。该队列为病例对照设计,包含240名受试者(男性110人,平均年龄67.8±15.0岁),其中LVO阳性与阴性各120例。纳入标准为年龄≥22岁,并在24小时内完成NCCT及确诊性CTA、磁共振血管成像(Magnetic Resonance Angiography, MRA)或数字减影血管造影(Digital Subtraction Angiography, DSA)。排除标准与韩国队列类似,并额外包括了技术层面的排除标准(如像素间距不一致、层厚<2mm等)。该队列主要用于测试算法在技术和人口学特征上的泛化能力,而非评估依赖于患病率的临床效用。
2. 参考标准: LVO定义为颅内颈内动脉或大脑中动脉M1/M2段的闭塞。参考标准由三位经验丰富的专家(神经科医生和神经放射科医生)组成的共识小组,基于NCCT后24小时内进行的多模态影像(CTA、MRA、DSA或DWI)确定。
3. AI算法: 研究使用了一款已验证的基于机器学习的软件(JLK CTL, JLK, 韩国)。该软件的处理流程包括:对每个NCCT扫描进行颅骨剥离和仿射配准至标准模板;将大脑分割为四个改良的阿尔伯塔卒中项目早期CT评分(Alberta Stroke Program Early CT Score, ASPECTS)区域(纹状体囊区、岛叶、M1-M3区、M4-M6区),并分别计算左右半球对应区域;从每对双侧区域中提取四个手工设计的特征,以反映早期缺血改变:1)量化半球间平均亨氏单位(Hounsfield Unit, HU)差异的非等效性评分,2)代表相对密度变化的净水摄取率,3)捕捉半球肿胀的体积比,4)HU分布的标准差比。此外,使用基于U-Net的深度学习算法自动检测高密度动脉征(Hyperdense Artery Sign)并作为一个二元特征附加。因此,每个扫描共生成17个输入特征。最终模型选择了一个Extratrees集成分类器,因其在开发和外部验证数据集中表现出最一致的性能。模型输出一个0到100之间的LVO可能性评分,并在预设的截断值12.0(根据开发数据集使用约登指数确定)处生成二元预测(LVO阳性/阴性)。
4. 独立性能评估: 在韩国和美国两个队列中,使用受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC)、敏感性和特异性来评估算法的独立诊断性能。在美国队列中,还将AI的性能与五位美国执业认证放射科医生(两位普通放射科医生和三位神经放射科医生)的集体表现进行了比较(使用McNemar检验)。
第二部分:关键读者研究 1. 研究设计: 采用多读者、多病例交叉研究设计,使用韩国数据集评估AI辅助的临床效用。 2. 读者: 八名医生参与,包括神经科住院医师、放射科住院医师、神经科主治医师和神经放射科主治医师各两名。 3. 阅读流程: * 第一轮(无AI辅助): 医生独立审阅NCCT图像(不提供任何临床信息),对每个病例进行LVO二元分类(阳性/阴性),并给出五级置信度评分(1=极不可能,2=不太可能,3=可能,4=很可能,5=提示LVO)。置信度1-2级归类为LVO阴性,3-5级归类为LVO阳性。病例呈现顺序对每位读者随机。 * 洗脱期: 设置至少3周的洗脱期,以减少记忆效应。 * 第二轮(有AI辅助): 同一批医生重新审阅相同的病例集,但此时同时提供AI的输出结果,包括二元预测、连续可能性评分以及突出显示预测贡献区域的可视化图。读者在AI辅助下再次做出诊断和置信度评分。 4. 临床效用模拟: 为了量化AI作为诊断辅助工具的影响,模拟了一个工作流程,即使用AI输出来重新评估初始的无辅助诊断。计算了净重分类改善指数(Net Reclassification Improvement, NRI)、需筛查病例数(Number Needed to Screen, NNS)和益害比(Benefit-to-Harm Ratio, BHR)。这些指标基于所有八位读者的汇总数据计算,并使用韩国队列观察到的LVO患病率(17.6%)进行组合。此外,还根据Goddard框架计算了依赖水平益害比(Reliance-level BHR)。 5. 自动化偏倚和锚定效应评估: 分析AI辅助阅读中诊断转变的类型:正向咨询(AI正确,读者从错误修正为正确)、负向咨询(AI错误,读者从正确变为错误)或无变化。锚定效应通过拟合线性模型进行评估,以AI辅助后的置信度评分为因变量,以读者自身无辅助置信度和AI二元预测为预测变量。 6. 统计分析: 使用R软件进行。采用Obuchowski-Rockette方法进行多读者、多病例分析,比较有/无AI辅助的诊断性能差异。P值<0.05被认为具有统计学意义。
四、 主要研究结果 1. AI独立性能结果: * 在美国队列中,AI算法表现出色,AUC为0.899(95% CI:0.858-0.939),敏感性为0.792(95% CI:0.722-0.863),特异性为0.933(95% CI:0.887-0.975)。其性能显著优于五位美国执业放射科医生的集体表现(所有指标p<0.001)。 * 在**韩国队列**中,AI算法表现更优,AUC高达0.963(95% CI:0.946-0.975),敏感性为0.874(95% CI:0.803-0.926),特异性为0.916(95% CI:0.891-0.937)。 * 算法的稳健性在不同性别、种族、CT制造商和扫描层厚等亚组中均得到确认,性能指标保持稳定。即使在症状严重(NIHSS评分>6分)的LVO病例中,也保持了高敏感性。 * 误分类分析: 假阳性主要源于点状动脉钙化(模仿高密度动脉征)或非LVO病理改变(如慢性梗死、静脉血栓、血管密度不对称)。假阴性主要发生在成像时间极早(发病到扫描时间短)或缺血核心体积小的患者中,这些情况下NCCT上的高密度征可能非常细微或缺失。
2. 读者研究结果: * 总体性能提升: AI辅助显著提升了所有读者组的诊断性能。所有医生的汇总AUC从0.718提高至0.852(p<0.001)。汇总敏感性从46.6%显著提升至63.7%,汇总特异性从91.9%提升至94.9%(均p<0.001)。 * 不同经验水平读者的获益: * 神经科住院医师获益最大,AUC从0.695提升至0.880,敏感性从48.0%大幅提升至76.0%。 * 神经放射科主治医师的AUC从0.693提升至0.804,敏感性从41.7%提升至61.0%,特异性也从92.8%提升至95.3%。这表明AI起到了“专家第二双眼睛”的作用,提示重新评估可能被漏诊的细微闭塞。 * 放射科住院医师的敏感性有提升趋势但未达统计学显著性(p=0.078),但其AUC和特异性均有显著提升。 * 诊断信心: AI辅助后,读者在LVO阳性和阴性病例中的诊断信心均有所增加。
3. 临床效用量化结果: * 在韩国队列观察到的17.6%患病率下,AI辅助带来的净重分类改善指数为5.5%,对应的需筛查病例数为18.2。这意味着,大约每分析18个NCCT扫描,AI辅助就能帮助避免漏诊1例适合血栓切除术的LVO患者。 * 病例水平益害比为2.89,意味着每引入1个新的诊断错误,大约能纠正2.9个原有错误。 * 依赖水平益害比高达9.25,这意味着在AI导致读者出错的每一个病例中,大约有9个病例被AI正确“挽救”。这表明AI的益处远大于其可能带来的危害。
4. 自动化偏倚与锚定效应结果: * 在所有5784次AI辅助阅读中,仅发现48次负向咨询(总体发生率0.83%),而有444次正向咨询。这表明自动化偏倚罕见。 * 锚定效应分析显示,读者自身无辅助置信度的标准化系数为0.481,而AI二元预测的系数为0.408。这表明在AI辅助下,读者自身的判断仍然是主导影响因素,AI起到了辅助而非替代的作用。
五、 研究结论与价值 本研究通过多国验证证实,该基于机器学习的LVO检测算法是一个稳健且可泛化的工具,在韩国和美国队列中均表现出高诊断准确性(AUC分别为0.963和0.899)。更重要的是,关键的读者研究证明,AI辅助能显著提升临床医生在NCCT上诊断LVO的能力,将平均诊断AUC从0.718提升至0.852,并作为可靠的安全网,弥合了不同经验水平医生之间的诊断差距。
科学价值与应用价值: 1. 验证了AI算法的泛化能力: 研究克服了单一中心AI工具在种族和技术异质性方面的局限性,证明了该算法在不同人群和扫描设备中的稳健性。 2. 量化了AI的临床效用: 通过严谨的读者研究和创新的效用指标(如NNS、BHR),将统计学显著性转化为临床相关性,为AI工具在真实世界部署提供了实证依据。研究表明,该工具作为诊断安全网具有很高的价值。 3. 明确了AI的角色定位: 研究结果表明,AI主要作为辅助工具提升医生(尤其是经验不足者)的敏感性,同时保持或提升特异性,而非取代人类判断。它能够标准化不同级别医生的诊断质量。 4. 指出了应用场景: 该工具不仅适用于缺乏CTA的初级卒中中心或资源有限地区,即使在拥有CTA的综合卒中中心,也能在NCCT到CTA的等待时间内(常见延迟超过15分钟)提供早期预警,加速分诊流程,缩短治疗时间。
六、 研究亮点 1. 严谨的多国验证与读者研究设计: 研究不仅进行了独立的外部验证,还通过前瞻性设计的读者交叉研究,直接评估了AI对临床医生诊断性能的实际影响,证据等级更高。 2. 创新的临床效用评估指标: 引入了NNS和BHR等指标,直观地量化了AI辅助在避免漏诊和权衡利弊方面的临床价值,超越了传统的AUC、敏感性/特异性指标。 3. 对自动化偏倚的深入分析: 研究不仅评估了性能提升,还专门分析了自动化偏倚的风险,发现读者在AI错误时能较好地保持自身判断(依赖水平BHR高达9.25),增强了AI作为辅助工具而非决策替代者的可信度。 4. 关注不同用户群体的差异化获益: 研究详细分析了不同专业和经验水平医生的获益差异,表明AI能最大程度地帮助初级医生,同时对专家也有补充价值,体现了工具的普适性和“水平效应”。 5. 算法设计的可解释性: 使用的算法结合了手工设计的影像特征和深度学习检测的征象(如高密度动脉征),相比纯“黑箱”深度学习模型,可能更具可解释性和临床接受度。
七、 其他有价值内容 * 研究局限性: 作者也客观指出了研究的局限性,包括回顾性设计可能的选择偏倚、美国队列为病例对照设计而非连续队列、读者研究仅在韩国队列中进行、LVO定义限于前循环、以及模拟环境与真实急诊环境的差异等。这些为未来研究(如前瞻性多国读者研究、纳入后循环LVO、评估对治疗时间和患者结局的影响)指明了方向。 * 与同类研究的对比: 文中提及了另一款NCCT-based AI工具(Brainomix)的研究,并简要比较了性能(本研究AUC更高),同时指出了直接比较的困难,体现了学术讨论的严谨性。 * 误分类分析: 对AI误判病例的原因进行了详细分析,有助于临床医生理解AI的局限性,并在实际使用中注意鉴别假阳性和假阴性的常见原因。