基于急性期非增强CT与临床信息融合深度学习模型预测缺血性卒中功能结局

分享自：
基于急性期非增强CT与临床信息融合深度学习模型预测缺血性卒中功能结局

影像医学与核医学
信息科学
期刊:RadiologyDOI:10.1148/radiol.240137
【点击此处】阅读全文、收藏及针对性提问
基于深度学习融合非增强CT与临床信息预测缺血性卒中远期功能结局的学术研究报告
一、 研究作者、机构及发表信息
本研究由Yongkai Liu、Yannan Yu、Jiahong Ouyang、Bin Jiang、Sophie Ostmeier、Jia Wang、Sarah Lu-Liang、Yirong Yang、Guang Yang、Patrik Michel、David S. Liebeskind、Maarten Lansberg、Michael E. Moseley、Jeremy J. Heit、Max Wintermark、Gregory Albers以及Greg Zaharchuk共同完成。参与的机构包括斯坦福大学医学院放射科和神经科、加州大学旧金山分校放射科、斯坦福大学电气工程系与环境健康安全系、亨利·M·冈恩高中、伦敦帝国理工学院国家心肺研究所、瑞士洛桑大学医院神经科、加州大学洛杉矶分校神经科以及德克萨斯大学MD安德森癌症中心神经放射科。该研究于2023年11月1日投稿，2024年8月9日被接受，并于2024年10月发表在《Radiology》期刊（2024年第313卷第1期）。
二、 研究的学术背景与目的
本研究属于医学影像学与人工智能（具体为深度学习）在脑血管病预后预测领域的交叉研究。缺血性卒中（急性缺血性中风）是全球范围内导致残疾和死亡的主要原因之一，每年约有1500万人发病。幸存者常面临严重的功能损害，生活质量显著下降。在卒中急性期（发病后1至7天）准确预测患者长期的临床结局（特别是90天时的功能状态），对于制定个体化康复策略、开展靶向临床研究、优化医疗资源分配以及实现个性化患者管理具有巨大的潜在价值。然而，由于动脉再通、缺血性脑水肿、脑出血等多种因素的影响，远期功能结局的预测非常复杂。
既往已有研究尝试利用临床变量和影像学特征结合机器学习来预测90天改良Rankin量表评分，但存在局限性：首先，它们依赖于手工提取的影像特征，这些特征可能并非最优的预测因子；其次，部分临床变量在普通医疗机构并非常规采集，或存在个体解读差异；再者，手工选择和提取影像特征的过程引入了主观性，并通常需要耗费大量人工进行后处理。
非增强计算机断层扫描（NCCT）是急性缺血性卒中成像的基石，因其快速、普及且成本较低，能快速识别早期梗死征象、颅内出血和病变组织位置。深度学习（DL）技术在图像解读方面展现出强大能力，能通过数据学习来最小化人工选择特征的主观性并提取更具信息量的特征。已有研究将DL应用于磁共振成像（MRI）进行卒中结局预测并取得良好效果。然而，关于利用DL从更易获取的NCCT图像中提取特征来预测临床结局的研究尚缺乏。因此，本研究旨在探索，在急性缺血性卒中阶段，一个融合NCCT图像与一小部分常规采集的临床变量的深度学习模型，相较于单独使用任一成分的模型，是否能更准确地预测90天mRS评分。
三、 研究的详细工作流程
本研究为一项回顾性研究，遵循《健康保险流通与责任法案》（HIPAA）规定，并获得斯坦福大学医学院机构审查委员会批准。研究工作流程包含以下几个关键环节：
1. 研究患者与数据集构建： 研究纳入了来自四项多中心前瞻性试验和两个回顾性单中心注册登记的六组患者数据集。总初始队列为3197名患者。严格的纳入排除标准为：年龄≥18岁（有两例例外），临床诊断为急性缺血性卒中。排除标准为缺少90天mRS评分和/或在基线影像后1-7天内未进行NCCT检查的患者。最终，共有1335名患者（中位年龄71岁；男性661名，女性674名）符合纳入标准，用于模型的开发和测试。为确保数据分布的均衡性和结果的稳健性，研究采用了六折交叉验证（sixfold cross-validation）策略。患者根据其所属队列和90天mRS评分进行分层后，被分为六个集合。在每一轮交叉验证中，其中一个集合作为独立测试集，其余五个集合合并作为开发集（其中73.3%用于训练，10.0%用于验证）。这种划分确保了每个折叠中各个队列的患者和不同结局评分的患者比例大致均衡，且测试集的信息完全独立于模型开发过程。
2. 数据预处理： * 影像数据： 所有NCCT图像均使用SPM12软件配准到标准化的蒙特利尔神经学研究所（MNI）模板，以实现空间标准化。图像强度值被限制在0-100亨氏单位（HU）范围内，然后进行均值归一化，之后输入深度学习模型。 * 临床数据： 包括年龄、性别、基线及24小时美国国立卫生研究院卒中量表（NIHSS）评分，以及高血压、糖尿病、心房颤动病史。分类变量（如疾病史）被转换为二值变量。对于缺失的临床变量，使用开发集中该变量的中位数进行填补。
3. 模型架构、训练与测试： 研究构建并比较了三种模型： * 临床模型： 核心是一个支持向量回归（Support-Vector Regression, SVR）模型，仅以上述7项临床变量作为输入，输出对90天mRS评分的连续预测值。 * 影像模型： 基于三维卷积神经网络（3D Convolutional Neural Network）和ResNet架构进行修改。主要修改包括：移除了第四层，在全连接层之前以及在第二层和第三层之间添加了丢弃层（Dropout）以减少过拟合，并将最终全连接层的神经元数量减少到1个以执行回归任务。该模型以预处理后的NCCT图像体积作为输入，输出对90天mRS评分的连续预测值。 * 融合模型： 这是本研究的核心创新模型。它将临床模型所用的变量与影像模型的预测值共同融合到一个支持向量回归框架中。具体而言，影像模型从NCCT中提取的“深度特征预测值”作为一个新的、重要的输入特征，与原始的7项临床变量一起输入到第二个SVR模型中进行训练，最终输出融合后的预测。预测值若超过6或低于0，则分别被重新赋值为6（死亡）和0（无症状）。 模型的损失函数、数据增强（如随机翻转、旋转、缩放）和训练过程（如使用Adam优化器）在附录中有详细说明。所有代码已在GitHub上公开。
4. 性能评估： 模型性能从两个方面进行评估： * 顺序mRS评分预测： 评估模型预测具体mRS等级（0-6分）的能力。使用三个指标：1）平均绝对误差：预测值与实际值之间绝对差异的平均值，越低越好；2）特定mRS评分准确率：预测的整数评分与实际评分完全一致的百分比；3）误差在1分以内的准确率：预测评分与实际评分之差不超过1分的百分比。 * 不良结局预测： 评估模型区分“良好结局”（mRS评分≤2）与“不良结局”（mRS评分>2）的能力。使用受试者工作特征曲线下面积（AUC）、敏感性、特异性等指标。将预测评分2.5作为区分良好与不良结局的阈值。此外，研究还将融合模型的性能与经典的“基线调整后24小时NIHSS”预测方法进行了比较。
5. 融合模型的子分析与可解释性： 为了评估模型的稳健性和泛化能力，研究对融合模型在不同亚组（如性别、不同年龄段、不同患者队列）中的性能进行了子分析。同时，研究采用了显著性激活图来可视化影像模型在做出预测时最关注的图像区域，从而解释模型的决策依据。此外，通过排列特征重要性分析，量化了模型中各个输入变量（包括影像预测值和各项临床变量）对最终预测结果的相对贡献度。
四、 研究的主要结果
1. 顺序mRS评分预测结果： 融合模型在预测具体mRS评分方面表现最佳。其平均绝对误差（MAE）为0.94（95% CI: 0.89， 0.98），显著优于单独的影像模型（MAE为1.10）和单独的临床模型（MAE为1.00），p值分别小于0.001和0.04。在“误差在1分以内的准确率”上，融合模型达到80.1%，显著高于临床模型（77.1%）和影像模型（72.7%）。在“特定mRS评分准确率”上，融合模型为33.3%，与临床模型（32.7%）无显著差异，但优于影像模型（30.3%）。
2. 不良结局预测结果： 融合模型在区分不良结局方面同样表现出色。其AUC达到0.91（95% CI: 0.89， 0.92），显著优于基线调整后24小时NIHSS方法（AUC 0.87）、单独的临床模型（AUC 0.88）和单独的影像模型（AUC 0.85），所有比较p值均小于0.001。融合模型的敏感性为85.1%，与经典方法（85.2%）相当，但显著高于影像模型（76.8%）。其特异性为78.1%，显著高于经典方法（72.1%）。
3. 融合模型子分析与解释性结果： * 亚组分析： 融合模型在不同性别和不同年龄组中表现一致，MAE均稳定在约0.93左右，表明模型具有良好的稳健性。在不同患者队列中，模型性能存在一定异质性，在DEFUSE 2队列中表现最佳（MAE 0.74），在斯坦福大学医院注册队列中表现相对较低（MAE 1.06），研究者认为这可能与不同队列的样本量、成像协议和患者人群差异有关。 * 特征重要性分析： 排列特征重要性分析清晰地显示，对模型预测贡献最大的两个特征是“24小时NIHSS评分”和“NCCT深度学习预测值”。年龄的影响力较低，而糖尿病、心房颤动、高血压等病史变量对预测的影响微乎其微。这表明模型主要依赖于急性期神经功能状态（由NIHSS评分反映）和影像所揭示的脑组织损伤信息（由DL从NCCT中提取）来进行预测，而其他基础病史信息可能已隐含在这些动态指标中，或对远期功能结局的直接影响相对较小。 * 可视化分析： 显著性激活图显示，影像模型在进行预测时，其“注意力”主要聚焦在卒中病灶区域，这增强了模型决策过程的透明度和可信度。
五、 研究的结论与意义
本研究表明，开发的一个基于深度学习、融合急性期非增强CT（NCCT）图像与常规临床信息的模型，能够有效预测缺血性卒中患者90天后的功能结局（mRS评分）。该融合模型的预测准确性显著优于单独使用NCCT的影像模型或单独使用临床信息的模型，其性能与先前文献中报道的基于MRI的模型相当。
科学价值与应用价值： 1. 方法学价值： 本研究首次系统性地将深度学习应用于卒中急性期最常用、最普及的NCCT影像，并证明其提取的特征与临床信息融合后，可以成为预测长期功能结局的有效工具。这为在资源有限、无法常规进行MRI检查的医疗机构进行精准预后评估提供了可能。 2. 临床实践价值： 模型设计注重临床实用性。它仅需卒中后1-7天的NCCT图像和7项易于获取的临床变量，无需复杂的手工影像特征提取或额外的昂贵检查，便于整合到现有临床工作流程中。准确的早期预后预测有助于医生和患者家庭设定合理的期望，优化康复资源的早期配置，并为个体化治疗决策提供参考。 3. 模型解释性： 研究通过特征重要性分析和激活图可视化，揭示了模型决策的主要依据（24小时NIHSS评分和NCCT影像特征），增强了这一“黑箱”AI模型的可信度和临床接受度。
六、 研究的亮点
创新性的融合策略： 研究创造性地将深度学习从NCCT中自动提取的“影像预测特征”作为一个高阶变量，与传统的结构化临床变量在机器学习框架（SVR）中进行融合，而非简单的早期或晚期特征拼接，这种策略有效结合了影像和临床数据的优势。
解决临床痛点： 专注于NCCT这一卒中诊疗中最基础、最广泛应用的影像模态，解决了在缺乏高级影像（如MRI、灌注成像）的基层或普通医疗中心进行精准预后预测的难题，具有很高的普适性和转化潜力。
大规模、多中心数据验证： 研究纳入了来自多个国际知名临床试验和注册登记的总计超过三千名患者的数据，经过严格筛选后使用1335名患者进行六折交叉验证，确保了研究结果的可靠性和一定程度的泛化能力。
全面的性能评估与模型解释： 不仅评估了模型在顺序评分和二元分类上的性能，还进行了深入的亚组分析和模型可解释性研究，全面展示了模型的优缺点和决策逻辑。
七、 其他有价值的内容
研究在讨论部分也坦诚指出了局限性：1) mRS评分本身存在评估者间变异性和分类粒度较粗的问题；2) 未将不同治疗方案作为模型输入变量；3) 交叉验证方法可能导致不同折叠间模型参数不一致，且需要未来在真正独立的大规模外部数据集上进行验证；4) 预测具体mRS评分的准确率（约30%）仍有较大提升空间，未来需要更大数据集或更优的算法架构；5) 研究的回顾性性质可能引入未知偏倚；6) 融合模型相对于单模态模型的绝对性能提升（MAE降低约0.1， AUC提升约0.03）虽然具有统计学意义，但其临床意义的边界需要进一步探讨。这些讨论为后续研究指明了方向。
此外，研究使用的影像是在急性治疗开始后至少24小时获取的，这反映了干预后的脑组织状态，能为出院后的康复策略提供信息。研究者也指出，未来研究可以探索使用治疗前的基线影像来预测长期结局，这可能对急性期治疗决策的优化产生直接影响。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问