这篇文档的内容是一个关于单项原创研究的学术报告,以下是基于文档内容的综合报告:
本文的主要作者包括 Yusuke Kawazoe、Takehiro Shiinoki、Koya Fujimoto 等,隶属于日本山口大学(Yamaguchi University)。这项研究的原始预印本于 2022 年 2 月 7 日发表,之后于 2023 年 2 月 14 日在期刊 Physical and Engineering Sciences in Medicine 正式发表,DOI为:https://doi.org/10.1007/s13246-023-01232-9。
研究背景显示,肺癌是与癌症相关死亡的主要原因之一,其中非小细胞肺癌(Non-Small Cell Lung Cancer,简称 NSCLC)占所有肺癌病例的 80%以上。腺癌是 NSCLC 的主要组织学亚型,近年来,分子靶向治疗药物特别是表皮生长因子受体酪氨酸激酶抑制剂(Epidermal Growth Factor Receptor Tyrosine Kinase Inhibitors,EGFR-TKIs)得到了广泛应用。这类药物在携带 EGFR 基因突变的肺腺癌患者中表现出优于传统化疗的无疾病进展生存期(Progression-Free Survival,PFS)。
在 EGFR 基因突变亚型中,19号外显子缺失突变(19del)和 21号外显子点突变(L858R)约占所有 EGFR 突变的 90%。然而,19del 亚型对 EGFR-TKIs 的响应更佳,且患者在 EGFR-TKIs 治疗后的PFS也更长。因此,识别 EGFR 突变状态及其亚型对于制定个性化治疗策略至关重要。
尽管组织活检是检测 EGFR 突变的金标准,但这种方法具有时间成本高、侵入性强的问题。而放射组学(Radiomics)基于医学图像提取定量特征,为无创识别 EGFR 突变提供了可能性。然而,不同研究多集中在机器学习(Machine Learning,ML)模型或列线图(Nomogram)模型的单一应用,很少有研究在同一数据集上比较两者的临床实用性。
因此,这项研究的目的是基于放射组学特征,开发和验证用于预测 EGFR 突变状态及亚型的 ML 和列线图模型,并比较其临床实用性。
研究从山口大学的数据库中收集了 2016 年至 2020 年期间接受活检或手术的 172 例 NSCLC 患者。纳入标准包括:(1)组织学上确诊为肺腺癌;(2)明确的 EGFR 突变状态(突变或野生型);(3)明确的 EGFR 突变亚型(L858R 或 19del);(4)术前未经造影增强的胸部 CT 图像。排除标准包括:(1)非腺癌患者;(2)术前接受过目标分子治疗或手术的患者;(3)同时拥有 19del 和 L858R 突变的患者。训练集和测试集按照 7:3 的比例随机分配。
CT 扫描在多台 CT 扫描仪上完成,各扫描参数(如电压、电流、层厚等)均有记录。使用开源软件 3D Slicer 的 GrowCut 分割算法对肺部肿瘤进行半自动分割,从而提取放射组学特征,共获取 1046 项特征,涵盖形状、一阶统计量、多灰级矩阵特征等。
为消除不同 CT 扫描仪的影响,对提取特征进行标准化处理。通过使用方差分析(Analysis of Variance,ANOVA)和最小绝对收缩与选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)方法,筛选出具有显著差异的特征,并通过五折交叉验证确定惩罚系数。
根据筛选的放射组学特征计算放射评分(Rad-Score)。结合具有统计显著性的临床特征,用支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic Regression,LR)算法分别构建 ML 模型。实现模型优化采用网格搜索法和五折交叉验证。
列线图模型通过多变量逻辑回归分析构建,纳入 Rad-Score 和临床特征,最终生成用于预测 EGFR 突变状态及亚型的列线图。
模型性能通过受试者工作特征曲线下的面积(Area under the Curve,AUC)及一致性指数(Concordance Index,C-index)进行评价。此外,使用决策曲线分析(Decision Curve Analysis,DCA)评估模型的临床收益。
在 EGFR 突变状态的预测中,最佳 ML 模型(LR)在测试集上的 AUC 为 0.732;在 L858R 和 EGFR- 的区分中,最佳模型 AUC 为 0.826;在 19del 和 EGFR- 的区分中,最佳模型 AUC 达到 0.773(SVM 和 LR 均达到这一值)。
列线图模型在不同组别中的 C-index 均表现出较高的预测能力。例如,训练集中预测 EGFR 突变状态的 C-index 为 0.844,测试集中为 0.781;预测 L858R 的 C-index 为 0.801;预测 19del 的 C-index 为 0.689。
DCA 显示,在所有组别中,列线图模型与 ML 模型均比“全治疗”或“全不治疗”的策略具有更高的净收益。其中,对于高于 15%-20% 风险阈值的场景,列线图模型的净收益超过 ML 模型。
本研究的主要结论是基于放射组学特征和临床特征构建了预测 EGFR 突变状态及亚型的 ML 模型和列线图模型。尽管两种模型的 AUC 表现接近,但列线图模型在决策曲线分析中表现出更高的临床效用。此外,列线图因其简单的可视化形式在临床应用中具有潜在优势。
这项研究的意义在于证明了结合放射组学的列线图模型可以作为 EGFR 突变检测的补充手段,尤其适用于常规活检方法受限的情形。通过无创方式预测 EGFR 突变及亚型,可以帮助临床医生制定更精准的个性化治疗方案。
研究的主要限制是样本量相对较少,尤其是 19del 和 L858R 亚型的样本规模有限。此外,列线图模型尚未使用外部数据集进行验证;未来研究应引入更大规模、多中心的数据集以进一步验证模型的鲁棒性。同时,更多临床变量如病理数据的引入可能进一步提升模型的预测效率。
本研究通过无创影像学方法对 EGFR 突变状态和亚型的预测提供了一种有力途径,为肺腺癌患者的个性化治疗提供了新的工具。