分享自:

完全自动化冠状动脉造影解读与狭窄估计系统CathAI

期刊:npj digital medicineDOI:https://doi.org/10.1038/s41746-023-00880-1

《npj Digital Medicine》期刊于2023年发表了一项由Robert Avram、Geoffrey H. Tison等多位学者合作完成的原创性研究,题为“CathAI: fully automated coronary angiography interpretation and stenosis estimation”。这项研究的主要贡献者是来自美国加州大学旧金山分校、加州大学伯克利分校、加拿大蒙特利尔心脏研究所、渥太华大学心脏研究所等多个顶尖学术和医疗机构的研究团队。该研究旨在解决冠状动脉疾病(Coronary Artery Disease,CAD)诊断中的核心挑战。

冠状动脉疾病是全球成人死亡的主要原因,而冠状动脉造影术是诊断和管理CAD的金标准。然而,目前临床上主要依赖医生对冠状动脉造影图像(简称“冠脉造影”)进行视觉评估,以判断血管狭窄程度。这种主观评估方法存在显著的观察者内和观察者间变异性,研究显示其变异范围可达7.6%至22.5%。这种不一致性可能导致对狭窄程度的误判(例如,有研究指出超过四分之一的病例可能高估狭窄严重性),进而影响治疗决策,甚至导致不必要的心脏搭桥手术或支架植入。定量冠状动脉造影(Quantitative Coronary Angiography, QCA)虽能提供更标准化的分析,但过程并非全自动化,需要人工校准和选择图像帧,因此多用于研究场景。因此,开发一种全自动、标准化、可重复的冠脉造影分析系统,对于提高CAD诊断和治疗的精准度具有重要的临床意义。本研究的核心目标正是开发和验证一个名为CathAI的自动化流程,用于从真实世界的冠脉造影视频中自动解读影像、定位冠状动脉狭窄并评估其严重程度。

CathAI系统是一个由四个顺序执行的深度学习神经网络算法组成的自动化分析流水线,它模拟了临床解读冠脉造影所需的关键步骤。研究使用了加州大学旧金山分校(UCSF)在2008年4月1日至2019年12月31日期间收集的、来自11,972名成年患者的13,843项完整的冠脉造影研究(总计195,195个血管造影视频)作为主要数据集。整个工作流程如下: 首先,算法1负责分类造影投影角度。其训练数据来自造影视频的DICOM元数据,包含12种左前斜/右前斜(LAO/RAO)和头位/足位(Cranial/Caudal)投影角度组合。研究人员采用了Xception卷积神经网络架构,并利用ImageNet权重进行初始化,通过图像增强技术训练模型,使其能够自动识别每个造影帧的拍摄角度。 其次,算法2负责识别造影视频中包含的主要解剖结构。由于造影过程中可能拍摄到主动脉、股动脉等非目标结构,此算法旨在筛选出主要包含左冠状动脉(Left Coronary Artery, LCA)或右冠状动脉(Right Coronary Artery, RCA)的视频,供后续分析。研究人员从数据集中随机抽取了14,366张图像,由心脏病专家手动标注为11类解剖结构(如LCA、RCA、桥血管、导管等)。算法2同样基于Xception架构,并采用从算法1训练好的权重进行初始化,以实现更快的收敛和更好的性能。通过该算法,系统能够过滤出后续分析所需的目标血管影像。 第三,算法3负责在LCA和RCA影像中定位关键对象。这是实现精准狭窄分析的基础,需要识别具体的冠状动脉节段和狭窄位置。研究人员使用了2,338张包含和不包含狭窄的LCA/RCA图像,由专家标注出冠状动脉节段、狭窄区域、支架、导管等对象的边界框。该算法采用了RetinaNet这一在物体检测领域表现优异的架构,训练了两个版本:算法3a处理所有LCA/RCA图像,算法3b专门针对LAO投影下的RCA图像(该视角数据量较大),以探索针对特定视角优化算法的可能性。算法输出的边界框坐标将用于后续裁剪出狭窄区域图像。 第四,算法4是系统的核心,负责预测冠状动脉狭窄的严重程度(百分比)。其训练标签来自对UCSF临床手术报告进行文本解析后提取的“报告-狭窄”百分比数据。研究人员将算法3定位到的狭窄区域图像进行裁剪和尺寸调整后,输入算法4。算法4基于修改后的Xception架构,将最终的分类层替换为具有线性激活函数的密集层,以输出连续的狭窄百分比值。训练过程中,还加入了冠状动脉节段标签和裁剪图像的长宽比作为额外的输入特征。模型训练采用RAdam优化器,并创新性地使用了多尺寸输入训练方案,即每个训练周期专注于一种长宽比的图像,以处理不同方向和尺寸的血管影像。最终,系统会综合一个血管节段在所有视频和所有图像帧中的预测结果,给出该节段水平的平均狭窄程度,这模仿了临床实践中通过多个正交投影评估“最差视图”的标准做法。 为验证系统的泛化能力和应用潜力,研究团队还在两个外部数据集上进行了测试。第一个是来自加拿大渥太华大学心脏研究所(UOHI)的真实世界造影数据集(464个随机采样的视频),由两位经验丰富的介入心脏病专家进行盲法判读,作为验证标准。第二个是来自蒙特利尔心脏研究所(MHI)核心实验室的定量冠状动脉造影(QCA)数据集,该数据集患者群体狭窄程度普遍较轻,且以QCA测量值(≥50%为严重狭窄)为标准,与研究主要使用的视觉评估标准(≥70%)不同。在QCA数据集上,研究人员对CathAI的算法4进行了再训练,仅微调最后两层全连接层,使其学习预测QCA狭窄值,而非视觉评估值。

该研究取得了多方面的重要结果,验证了CathAI系统的有效性和先进性。在内部测试集(UCSF)上,CathAI展现了卓越的性能。算法1和算法2分别以≥90%和≥93%的阳性预测值、灵敏度及F1分数,高精度地完成了投影角度和解剖结构(特别是LCA和RCA)的分类任务。算法3在物体定位任务中取得了48.1%的加权平均平均精度(mAP),达到了同类物体检测AI算法的先进水平,并在UCSF测试数据集中正确定位了93.3%的冠状动脉狭窄。最重要的算法4,在预测梗阻性CAD(狭窄≥70%)时,在血管节段水平达到了0.862的受试者工作特征曲线下面积(AUC,95%置信区间:0.843–0.880)。其预测的连续狭窄百分比与报告狭窄值之间的平均绝对差异为17.9% ± 15.5%,值得注意的是,这个差异落在甚至低于文献中常报告的人类观察者间变异范围(7-22%)之内。 外部验证结果进一步证实了CathAI的强大泛化能力。在未经过额外训练的UOHI数据集上,CathAI预测梗阻性狭窄的AUC达到了0.869(95% CI:0.830–0.907),表现与内部验证集相当。系统成功识别了100%的LCA/RCA视频,并且在专家达成共识的狭窄节段中,有84.5%的狭窄被CathAI准确定位到同一节段。所有被CathAI识别为狭窄的区域,都被两位专家确认为是真实的狭窄,而非伪影。在MHI的QCA数据集上,经过再训练的CathAI成功识别了100%的LCA/RCA视频和78.7%的QCA标注的狭窄。尽管由于数据集分布差异(狭窄程度轻)和标准不同(QCA ≥50%),再训练后模型区分梗阻性QCA狭窄的AUC为0.775(95% CI:0.594–0.955)略低于视觉评估任务,但其预测值与QCA测量值之间的平均绝对差异仅为6.5% ± 5.5%,显著低于文献报道的医生视觉评估与QCA之间的差异(10.2–16.6%),这突显了AI在减少变异性、提高标准化方面的潜力。 为了增强临床医生的理解和信任,研究还应用了GradCAM和LOVI两种神经网络可解释性方法。可视化结果显示,CathAI在做出决策(如识别LCA、判断狭窄程度)时,所关注的图像区域与心脏病专家相似,主要集中于目标血管及其狭窄部位,同时也考虑了狭窄段与正常血管段之间的关系,这为“黑箱”模型的决策提供了一定的透明度。

基于以上结果,研究团队得出结论:CathAI是首个用于冠状动脉造影的多阶段全自动分析流水线。它通过四个专用神经网络算法的顺序协作,成功完成了对真实世界冠脉造影视频的自动化解读和狭窄评估,并在各项核心任务上均达到了先进水平。该系统具有良好的外部效度,能够推广到不同医疗中心和不同造影设备采集的数据。更重要的是,CathAI为未来实现更广泛的自动化血管造影分析任务(如预测支架扩张不全、斑块形态或血流储备分数)奠定了坚实的基础。其最直接的临床应用价值在于,有望作为一种标准化、可重复的辅助工具,在介入手术过程中近乎实时地提供狭窄评估的第二意见,从而减少因视觉评估变异性导致的治疗决策差异,提高冠状动脉疾病诊疗的规范性和精准度。

本研究的亮点和创新之处在于多个方面。首先,这是首个在真实世界、未经筛选的冠脉造影视频上实现全自动分析(从视频输入到狭窄百分比输出)的系统性工作,超越了以往大多针对单帧、手动筛选图像或单一血管(如RCA)的研究。其次,研究设计严谨,包含了大规模内部数据训练、独立的内部测试集验证、真实世界外部数据集验证以及针对不同标注标准(QCA)的模型再训练演示,全面评估了系统的性能、泛化性和适应性。第三,提出的多任务流水线架构具有通用性,每个子任务(投影分类、结构识别、物体检测、狭窄回归)的算法均可独立优化和替换,为后续功能扩展和性能提升提供了模块化框架。第四,研究不仅关注算法性能指标,还通过可解释性AI方法尝试理解模型决策依据,并深入分析了算法在不同性别、不同血管上的性能差异,体现了研究的深度和对临床转化潜在问题的考量。例如,研究发现算法在女性和男性患者中预测梗阻性狭窄的AUC存在微小但显著的差异(女性0.890 vs. 男性0.830,交互作用p=0.02),提示未来需要平衡训练数据以进一步解决可能存在的性别偏倚。第五,研究坦诚地指出了当前系统的局限性,如训练标签来源于临床视觉评估本身存在的变异性、未涵盖所有血管类型(如桥血管、对角支等),并明确了未来需要更大规模、更精确标注(如基于核心实验室QCA或血流储备分数FFR)的数据集来进一步提升算法性能,为后续研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com