分享自:

基于 CT 图像的深度学习肺癌组织学分类

期刊:Scientific ReportsDOI:https://doi.org/10.1038/s41598-021-84630-x

学术报告

作者及出版信息

本文的研究由Tafadzwa L. Chaunzwa, Ahmed Hosny, Yiwen Xu, Andrea Shafer, Nancy Diao, Michael Lanuti, David C. Christiani, Raymond H. Mak 和 Hugo J. W. L. Aerts共同完成,分别隶属于Massachusetts General Hospital (MGH)、Dana Farber Cancer Institute, Brigham and Women’s Hospital, Harvard Medical School等机构。文章发表在 Scientific Reports 期刊上,其出版时间为2021年,DOI: https://doi.org/10.1038/s41598-021-84630-x。

研究背景

该研究属于医学图像分析领域,聚焦于非小细胞肺癌(NSCLC)的组织学分类问题。肺癌是癌症相关死亡的主要原因,其中超过80%的原发性肺癌被归类为非小细胞肺癌,包括腺癌(adenocarcinoma, ADC)和鳞状细胞癌(squamous cell carcinoma, SCC)。当前的标准诊断方法依赖于病理学家的组织样本评估,但这种方法因肿瘤异质性(inter- and intra-tumor heterogeneity)以及样本局限性而存在不足。此外,分子检测能够提供重要的信息,但高耗成本和技术门槛限制了其普及。因此,结合非侵入性影像数据的计算机辅助诊断(CADx)成为潜在的解决方案,尤其是深度学习方法在影像学分析中的发展为组织学分类提供了可能性。

研究目的

本研究旨在通过利用深度学习算法和放射组学(radiomics)技术,从临床常规获取的CT影像中预测NSCLC的主要组织学亚型(ADC和SCC)。通过非侵入性方法建立可靠的病理分类器,为肿瘤表型识别提供支持,并探索如何增强现有诊断方案。

研究方法及流程

本研究通过多步骤实验设计,结合深度学习和传统机器学习方法,从CT影像中提取肿瘤特征并进行组织学分类。以下为具体研究流程的详细描述:

  1. 数据采集与选择

    • 数据来源:使用了Massachusetts General Hospital的Boston Lung Cancer Survival (BLCS)队列,其涵盖1999至2011年期间接受早期NSCLC手术治疗的311名患者。
    • 数据包括:患者的临床数据(如总生存期、无进展生存期)、病理组织型(包括ADC、SCC及其他亚型)、分期信息,以及术前获取的CT影像。
    • 分组细节:将患者分为ADC组(155人,占49.8%)、SCC组(68人,占21.9%)和其他组(88人,占28.3%),后两组包含混合类型和多原发性肿瘤患者。
  2. 影像预处理

    • 手动肿瘤定位:通过开源软件3D Slicer标示肿瘤中心的种子点,并从中提取3D体积。
    • 空间缩放与密度标准化:采用线性插值技术,将CT影像统一缩放至每像素1mm,并进行密度归一化处理。
  3. 深度卷积神经网络(CNN)的训练

    • 使用VGG-16深度学习架构,这是一个在自然影像集ImageNet上预训练的卷积神经网络。
    • 网络微调:针对输入的肿瘤影像进行最后卷积层与全连接层的微调。模型A专注于ADC与SCC的二分类,模型B扩展到包括所有组织学类型的三分类。
    • 模型训练:输入为50mm×50mm的影像补丁,训练进行了100轮迭代。
  4. 基于特征的分类分析

    • 特征提取:从网络最后的池化层(512维特征)和第一个全连接层(4096维特征)提取深层特征。
    • 特征降维:通过主成分分析(PCA)将高维特征缩减至解释95%方差的60个主成分。
    • 特征选择:使用LASSO回归选择最相关的特征(α=0.01),最终确定18个最佳特征。
    • 分类器评估:利用支持向量机(SVM)、K近邻(KNN)和随机森林(RF)对特征数据进行分类建模。
  5. 结果分析与模型评估

    • 数据划分:以75:25的比例划分数据进行模型训练与测试。模型的主要评估指标包括ROC曲线下面积(AUC)、准确率、敏感性和特异性。

研究结果

  1. 深度卷积神经网络分类表现

    • 模型A在测试集中的ADC和SCC二分类性能的AUC为0.71(p = 0.018)。
    • 独立验证队列Lung3的AUC为0.60(p = 0.251),显示在不同数据分布下也有一定的鲁棒性。
  2. 基于CNN特征的分类性能

    • 最佳KNN模型在4096维特征上的AUC为0.71(p = 0.017),显现了与原始神经网络分类相当的性能。
    • 不同分类器中SVM的线性核和非线性核在一定条件下也提供显著的分类预测能力。
  3. 模型解释性

    • 使用Grad-CAM进行激活热图分析,验证CNN分类的关注区域符合实际影像的病理学特征。
    • 发现肿瘤周围的区域(可能代表隐匿疾病区域)对分类预测具有驱动作用。
  4. 对异质测试集的预测

    • 异质测试集中“ADC”与“SCC”的预测概率差异显著(p = 0.003),显示模型在区分这些亚型时的优势。

研究结论

该研究证明了深度学习和放射组学技术能够从非侵入性CT影像中预测NSCLC的主要组织学类型,并在数据异质性下表现出一定的鲁棒性。研究表明,这种基于深度学习的影像组学方法能够捕捉病理表型信息,并且模型的敏感性和特异性能够为临床计算辅助诊断提供保障价值。

研究意义与创新性

本研究提供了非侵入性肿瘤分类的概念验证,其方法可以为病理诊断提供辅助,与传统方法形成有机补充。研究的亮点包括: 1. 实现了从CT影像中提取量化特征并高效分类常见的NSCLC组织学亚型。 2. 所用的轻量级影像预处理策略和深度学习架构减少了对人工标注和精确分割的依赖。 3. 研究使用了广泛可用的临床队列数据,同时验证了模型在独立数据集上的适用性。

后续研究方向

未来研究应关注更大规模的多中心数据库,以进一步验证模型的外部可推广性,同时探索如何将这些非侵入性影像组学工具用于指导个体化治疗决策,并与液体活检等方法结合,为精确医学提供全方位支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com