这篇研究论文题为《Evaluation of stenoses using AI video models applied to coronary angiography》,发表于《npj Digital Medicine》期刊2024年7:138期。它由来自蒙特利尔综合理工学院(Polytechnique Montréal)、蒙特利尔心脏研究所(Montreal Heart Institute)、蒙特利尔大学(Université de Montréal)、加州大学旧金山分校(University of California, San Francisco)等机构的Élodie Labrecque Langlais、Denis Corbin、Olivier Tastet、Ahmad Hayek、Gemina Doolub、Sébastien Mrad、Jean-Claude Tardif、Jean-François Tanguay、Guillaume Marquis-Gravel、Geoffrey H. Tison、Samuel Kadoury、William Le、Richard Gallo、Frédéric Lesage和Robert Avram等多位学者共同完成。这项研究是一项关于利用人工智能(AI)技术革新冠状动脉疾病(CAD)诊断方法的原始研究,因此属于类型a。
以下将对该研究进行详细的学术报告。
本研究致力于解决心血管疾病临床诊断中的一个核心难题:冠状动脉狭窄评估的标准化与准确性。冠状动脉造影(CAG)是目前评估冠状动脉疾病严重程度的“金标准”。然而,临床实践中,医生主要依赖对CAG视频(一种动态的X射线影像序列)的视觉判读来估计狭窄百分比。这种方法存在显著的观察者内和观察者间变异性(文献报道在6.9%至26.4%之间),缺乏客观标准,可能导致对治疗必要性(如是否需要血运重建)的判断不一致。尽管存在更精确的定量冠状动脉造影(QCA)技术,但其操作繁琐、耗时,且依赖医生手动选择图像,因此多用于研究而非常规临床。生理学评估(如血流储备分数FFR)和血管内成像等技术虽然能补充信息,但因需要额外设备和专业知识,仅用于少数病例(约10-20%)。因此,开发一种高效、客观、可自动化运行的评估工具,对于提高CAD诊断的精准性、减少不必要的手术并改善患者预后具有迫切的临床需求。
人工智能,特别是深度学习,为医学影像的标准化分析提供了巨大潜力。然而,既往针对CAG的AI研究多存在局限性:例如,训练数据集规模小;依赖静态图像而非临床实际使用的动态视频,丢失了关键的时序信息;模型需要人工输入辅助;排除标准严苛,导致模型在真实世界数据上的泛化能力不足;或者仅能对狭窄进行“正常/异常”的二元分类,无法提供连续的严重程度百分比。此外,在准确将狭窄定位到特定的冠状动脉节段方面,现有方法(如CathAI)的性能也有待提升。基于此背景,研究团队设定了主要目标:开发一个名为DeepCoro的、基于视频的AI分析流程,旨在自动定位CAG视频中的狭窄并评估其严重程度,并在一个大规模的、历时5年的真实世界CAG数据集上,将其性能与心脏病专家的视觉评估进行对比。次要目标包括:将DeepCoro的性能与现有的、基于静态图像的先进流程(CathAI)进行对比;评估DeepCoro与人类评估者之间的一致性,以及与QCA评估结果的相关性。
DeepCoro是一个复杂的、端到端的算法流程,旨在模拟心脏病专家分析CAG视频的动态过程。其工作流程包含六个核心算法(Algorithm 1-6),其中Algorithm 3-6是本研究的创新贡献。整个流程针对以DICOM格式存储的CAG视频进行操作。
首先,Algorithm 1(主要解剖结构检测算法) 沿用了CathAI中已训练的基于Xception架构的图像分类模型。它的任务是识别视频帧中最常出现的主要解剖结构(如右冠状动脉RCA、左冠状动脉LCA、主动脉等)。该算法用于筛选视频,仅保留主要包含RCA或LCA的视频进入后续分析,排除其他无关结构的影像。
其次,Algorithm 2(狭窄检测算法) 同样基于CathAI中已训练的RetinaNet模型。这是一个目标检测模型,用于在视频的每一帧中定位冠状动脉节段和狭窄区域,并用边界框(bounding box)标出其坐标。它为每个检测到的狭窄区域确定一个“参考帧”和对应的“参考区域”(即狭窄边界框)。
接下来是本研究的创新算法。Algorithm 3(配准算法) 旨在解决心脏搏动和呼吸导致的血管运动问题。它使用判别相关滤波器来跟踪“参考区域”在视频序列前后帧中的空间位置变化,并通过空间平移将所有帧对齐到参考帧的坐标系,从而生成一个针对该狭窄区域的、稳定的“已配准视频”。
然后,Algorithm 4(分割算法) 对已配准的视频进行逐帧分析。研究团队测试了多种先进的分割模型和损失函数,最终选择了一个由七个模型组成的集成模型。该算法的目标是将冠状动脉分割为11个特定的心外膜节段(RCA和LCA各包含若干近端、中段、远端节段),生成带有节段标签的分割图谱。该算法在公开数据集ARCADE上进行了训练和验证,在测试集上获得了73.93%的Dice分数,表明其分割结果与人工标注有良好的一致性。
Algorithm 5(冠状动脉节段识别算法) 的任务是将检测到的狭窄精确地分配给特定的冠状动脉节段。它的原理是:在已配准的分割视频的每一帧中,检查狭窄边界框中心区域的像素属于哪个分割出的冠状动脉节段。通过对整个视频中所有帧的节段预测进行多数投票,得出该狭窄最终所属的节段。在数据集B(人工标注子集)上,该算法对所有11个节段的总体阳性预测值(PPV)达到71.89%,敏感性为70.72%,显著优于CathAI采用的边界框重叠方法(PPV 59.10%)。
最后,Algorithm 6(狭窄百分比预测算法) 是整个流程的最终输出环节。研究团队采用并修改了先进的视频分类Transformer模型——Swin3D,将其用于回归任务(预测0-100%的连续狭窄百分比)。模型输入是经过Algorithm 3配准并裁剪出的狭窄区域视频片段(24帧),同时结合了患者年龄和所属冠状动脉(LCA或RCA)的信息。该模型在大型数据集上进行了训练,旨在从动态视频中学习狭窄的形态学特征。
研究使用了四个数据集。核心数据集数据集A来源于蒙特利尔心脏研究所(MHI)临床数据库,时间跨度为2017年至2021年,包含182,418个CAG视频。经过前述算法1-5的处理,并排除了经皮冠状动脉介入治疗(PCI)和既往有冠状动脉旁路移植术(CABG)患者的视频后,最终形成了包含44,138个狭窄节段视频的数据集,用于Algorithm 6的训练、验证和测试。其标签来源于临床报告中心脏病专家的视觉评估。数据集B是从MHI数据库中随机抽取的1,926个视频子集,由两位经验丰富的心脏病专家独立重新标注了狭窄百分比、节段归属等信息,用于评估算法性能、观察者间变异性和开发PCI排除算法。数据集C是公开的ARCADE分割数据集,用于训练和评估Algorithm 4。数据集D来自MHI的QCA核心实验室,包含QCA测量的狭窄百分比作为金标准,用于验证DeepCoro在经过微调后能否适应这种更精确但一致性更高的标注方式。
研究的主要结果令人印象深刻,全面验证了DeepCoro流程的有效性和优越性。
在算法组件性能方面:Algorithm 3(配准)在数据集B上成功配准了96.63%的视频。Algorithm 4(分割)在数据集C的测试集上表现良好。Algorithm 5(节段识别)的准确率显著高于对比方法CathAI。最重要的是Algorithm 6(狭窄预测)的性能:在数据集A的测试集上,DeepCoro对于LCA和RCA合并评估,其预测狭窄百分比的平均绝对误差(MAE)为20.15%,分类任务的曲线下面积(AUROC)为0.8294。值得注意的是,对于相对结构更简单的RCA,模型性能更优(MAE 17.82%, AUROC 0.8643)。
在与现有技术CathAI的对比中,DeepCoro展现了全面优势。在相同的冠状动脉节段分配(使用DeepCoro的Algorithm 5结果以确保公平)下,DeepCoro的视频模型在狭窄分类(AUROC: 0.8294 vs. 0.7953)和回归(MAE: 20.15% vs. 21.61%)任务上均显著优于CathAI的静态图像模型。这证明了利用视频时序信息的重要性。
在评估观察者间变异性时,研究将DeepCoro和原始临床报告的评估结果,与数据集B中两位专家标注的“共识金标准”进行对比。结果发现,DeepCoro的预测与专家共识更为接近:其MAE为19.09%,低于临床报告的21.00%;AUROC为0.8699,显著高于临床报告的0.7533。这表明DeepCoro不仅达到了专家级的评估水平,甚至可能提供比单一临床报告更一致、变异更小的评估结果。
最后,为了展示模型的适应性和可微调性,研究团队在数据集D(QCA标注)上对Algorithm 6进行了微调。微调后的模型在预测QCA测量的狭窄百分比时,MAE大幅降低至7.75%。这一结果与QCA方法本身变异性较低的特性相符,证明了DeepCoro能够通过适应不同的金标准来显著提升其预测精度,具备处理不同临床任务(如自动化QCA测量)的潜力。
本研究的结论是明确且有力的:DeepCoro代表了一种在CAG视频解读方面的重大进步。 它成功开发并验证了一个基于视频的、多步骤的AI分析流程,能够自动化地、准确地定位冠状动脉狭窄并评估其严重程度,性能达到甚至超越了心脏病专家的视觉评估,且变异性更低。该流程的创新性在于其综合运用了血管跟踪配准、集成化血管分割和基于Transformer的视频分析模型,首次实现了对动态CAG视频的端到端、全自动分析,更贴近临床医生的实际诊断模式。
这项研究的科学价值和应用价值十分突出。科学上,它证明了视频AI模型在分析复杂动态医学影像(如CAG)方面相对于静态图像模型的显著优势,为后续相关研究提供了新的方法论范式和公开的模型权重(已发布于Hugging Face平台),将加速该领域的研究进展。应用上,DeepCoro有潜力成为一种标准化的CAG评估工具,嵌入临床工作流程,作为“独立观察者”辅助医生决策。这有望减少不同医生间的主观评估差异,提高诊断的一致性,从而优化血运重建治疗决策(如是否进行PCI或CABG),避免不必要的手术,并可能通过更早、更准地识别需要干预的病变来改善患者预后。研究还建议,下一步可通过随机对照试验(RCT)来验证使用DeepCoro辅助决策是否能最终改善患者的临床结局。
本研究的亮点在于:第一,方法学创新:首次提出了一个完整的、基于视频的CAG自动分析流程,其中的配准、集成分割和视频Transformer预测算法均为针对该任务的重要创新。第二,数据规模与真实性:研究基于超18万个视频、跨度5年的大型真实世界临床数据集,模型经过严格训练和验证,泛化能力和临床适用性强,排除标准相对宽松,更贴近现实。第三,性能卓越:模型在狭窄节段识别和严重程度预测上均优于现有的先进方法(CathAI),且其预测结果与专家共识的一致性高于常规临床报告。第四,灵活性与可拓展性:研究证明了DeepCoro可通过微调适应不同的评估标准(如QCA),展现了其在自动化QCA测量、钙化评估、甚至Syntax评分计算等更多临床应用场景中的潜力。
此外,研究也对DeepCoro的局限性进行了坦诚讨论,包括:其训练标签本身源于有变异性的视觉评估;目前模型专注于11个主要冠状动脉节段,未涵盖分支血管;对PCI和CABG术后病例的分析性能下降(因此被排除在训练集外);以及当前单视频分析耗时约62.6秒,需进一步优化以满足实时临床需求。这些均为未来的改进指明了方向。DeepCoro为冠状动脉疾病的精准、自动化诊断迈出了坚实的一步,是人工智能与心血管医学交叉融合的一个典范。