该文档属于类型a,即报告了一项单一原创研究的学术论文。以下是针对该研究的学术报告:
该研究的主要作者包括Riqiang Gao、Thomas Li、Yucheng Tang等,来自Vanderbilt University和Vanderbilt University Medical Center。研究发表于《Computational Biology and Medicine》期刊,最终编辑版本于2022年11月发布,DOI为10.1016/j.compbiomed.2022.106113。
肺癌是全球范围内癌症相关死亡率最高的疾病之一。不确定肺结节(indeterminate pulmonary nodules, IPNs)通常通过胸部CT筛查或偶然发现,其管理具有挑战性,许多患者可能接受了不必要的侵入性检查,或者因结果不确定而延误治疗。目前,临床实践中常用的方法包括Mayo模型和Brock模型,这些模型基于临床和影像学特征来估计肺癌的预测试概率。然而,这些模型在准确性和不确定性方面存在局限性。深度学习技术在肺癌诊断中显示出潜力,但如何将多模态数据(如CT影像和临床数据)整合到深度学习框架中,尚未得到全面研究。本研究旨在通过开发一种整合CT影像和临床数据(包括血液生物标志物)的深度学习模型,减少IPNs患者肺癌风险评估的不确定性,避免过度或不足治疗。
研究设计与数据来源
研究采用回顾性研究设计,使用了来自四个不同站点的数据进行交叉验证和外部验证。主要训练队列来自Vanderbilt University Medical Center(VUMC),包括1284名患者。外部验证数据集来自University of Pittsburgh Medical Center(UPMC)、Detection of Early Cancer Among Military Personnel(DECAMP)和University of Colorado Denver(UCD),分别包含155、136和96名患者。
研究对象的纳入标准为IPNs患者,结节大小范围为6-30毫米。癌症患者的最终诊断通过活检或手术切除确认,非癌症患者则通过活检良性或两年内无结节生长确认。
数据预处理
临床数据预处理包括9个临床变量的选择和归一化处理,这些变量包括年龄、BMI、吸烟状况、个人癌症史、结节大小、结节形态、结节位置和血液生物标志物CYFRA 21-1。连续变量采用最小-最大归一化,离散变量映射为二进制值。
影像数据预处理包括将图像转换为Hounsfield单位、二值化、肺部分割、计算肺部分割掩膜的凸包、扩张掩膜以提供肺部周围的边界、掩膜图像并归一化到[0,255]范围,以及裁剪和裁剪强度大于210的部分。
深度学习框架
研究提出了一种多路径多模态缺失网络(Multi-path Multi-modal Missing Network, M3Net),包括图像路径、表格路径和联合路径。图像路径使用预训练的结节检测模块和特征提取模块,提取CT图像中的特征。表格路径处理归一化后的临床数据,提取临床特征。联合路径将图像和临床特征结合,进行最终预测。
图像路径采用基于注意力的多实例学习模块,将五个结节提案的特征向量整合为一个整体CT图像特征向量。表格路径使用两个全连接层提取临床特征。联合路径通过两个全连接层将图像和临床特征结合,生成最终预测。
模型评估与比较
研究使用ROC曲线下面积(AUC)和临床净重分类改善(Clinical Net Reclassification Improvement, CNRI)作为评估指标。将提出的模型与Mayo模型、Brock模型和Liao模型进行比较。结果表明,该模型在所有验证数据集上均优于基线模型,AUC值显著提高,CNRI值也显示出更好的重分类性能。
模型性能
在VUMC训练队列的交叉验证中,该模型的AUC为0.787,显著高于Mayo模型(0.707-0.719)和Liao模型(0.709)。在外部验证数据集中,该模型在UPMC、DECAMP和UCD的AUC分别为0.918、0.712和0.847,均优于基线模型。
在IPNs患者中,该模型在UPMC、DECAMP和UCD的AUC分别为0.897、0.713和0.832,显示出更好的性能。
重分类性能
该模型在所有外部验证数据集中的CNRI值均大于0,表明其重分类性能优于Mayo模型。特别是在UPMC和UCD数据集中,CNRI值分别为0.20和0.18,显示出显著的改善。
该研究证明,整合CT影像和临床数据的深度学习模型可以显著提高IPNs患者肺癌风险评估的准确性,减少不确定性。该模型在多个外部验证数据集上均表现出优越的性能,表明其具有广泛的适用性和临床价值。此外,该模型能够处理数据缺失问题,即使在只有单一模态数据的情况下,也能进行有效预测。这一研究为IPNs的管理提供了新的工具,有助于减少不必要的侵入性检查和治疗延误。
多模态数据整合
该研究首次将CT影像和临床数据(包括血液生物标志物)整合到深度学习框架中,显著提高了肺癌风险评估的准确性。
处理数据缺失问题
该模型能够处理训练和测试中数据缺失的问题,即使在只有单一模态数据的情况下,也能进行有效预测。
优越的性能
该模型在多个外部验证数据集上均表现出优越的性能,AUC和CNRI值显著优于现有的临床预测模型和影像模型。
自动化流程
该模型无需人工结节分割,实现了从CT影像到肺癌风险评估的完全自动化流程,减少了人为误差和操作时间。
该研究的源代码已公开发布在GitHub上(https://github.com/masilab/deeplungipn),为其他研究人员提供了参考和进一步开发的基础。此外,研究还详细讨论了模型的局限性和未来改进方向,如增加数据量和提高模型的可解释性。