分享自:

基于放射组学的机器学习与列线图预测模型在肺腺癌表皮生长因子受体突变状态与亚型中的比较研究

期刊:Physical and Engineering Sciences in MedicineDOI:10.1007/s13246-023-01232-9

这篇文档的内容是一个关于单项原创研究的学术报告,以下是基于文档内容的综合报告:


研究背景和作者信息

本文的主要作者包括 Yusuke Kawazoe、Takehiro Shiinoki、Koya Fujimoto 等,隶属于日本山口大学(Yamaguchi University)。这项研究的原始预印本于 2022 年 2 月 7 日发表,之后于 2023 年 2 月 14 日在期刊 Physical and Engineering Sciences in Medicine 正式发表,DOI为:https://doi.org/10.1007/s13246-023-01232-9。


研究的背景与目的

研究背景显示,肺癌是与癌症相关死亡的主要原因之一,其中非小细胞肺癌(Non-Small Cell Lung Cancer,简称 NSCLC)占所有肺癌病例的 80%以上。腺癌是 NSCLC 的主要组织学亚型,近年来,分子靶向治疗药物特别是表皮生长因子受体酪氨酸激酶抑制剂(Epidermal Growth Factor Receptor Tyrosine Kinase Inhibitors,EGFR-TKIs)得到了广泛应用。这类药物在携带 EGFR 基因突变的肺腺癌患者中表现出优于传统化疗的无疾病进展生存期(Progression-Free Survival,PFS)。

在 EGFR 基因突变亚型中,19号外显子缺失突变(19del)和 21号外显子点突变(L858R)约占所有 EGFR 突变的 90%。然而,19del 亚型对 EGFR-TKIs 的响应更佳,且患者在 EGFR-TKIs 治疗后的PFS也更长。因此,识别 EGFR 突变状态及其亚型对于制定个性化治疗策略至关重要。

尽管组织活检是检测 EGFR 突变的金标准,但这种方法具有时间成本高、侵入性强的问题。而放射组学(Radiomics)基于医学图像提取定量特征,为无创识别 EGFR 突变提供了可能性。然而,不同研究多集中在机器学习(Machine Learning,ML)模型或列线图(Nomogram)模型的单一应用,很少有研究在同一数据集上比较两者的临床实用性。

因此,这项研究的目的是基于放射组学特征,开发和验证用于预测 EGFR 突变状态及亚型的 ML 和列线图模型,并比较其临床实用性。


研究流程与方法

数据收集与患者选择

研究从山口大学的数据库中收集了 2016 年至 2020 年期间接受活检或手术的 172 例 NSCLC 患者。纳入标准包括:(1)组织学上确诊为肺腺癌;(2)明确的 EGFR 突变状态(突变或野生型);(3)明确的 EGFR 突变亚型(L858R 或 19del);(4)术前未经造影增强的胸部 CT 图像。排除标准包括:(1)非腺癌患者;(2)术前接受过目标分子治疗或手术的患者;(3)同时拥有 19del 和 L858R 突变的患者。训练集和测试集按照 7:3 的比例随机分配。

CT 图像特征提取与标准化

CT 扫描在多台 CT 扫描仪上完成,各扫描参数(如电压、电流、层厚等)均有记录。使用开源软件 3D Slicer 的 GrowCut 分割算法对肺部肿瘤进行半自动分割,从而提取放射组学特征,共获取 1046 项特征,涵盖形状、一阶统计量、多灰级矩阵特征等。

为消除不同 CT 扫描仪的影响,对提取特征进行标准化处理。通过使用方差分析(Analysis of Variance,ANOVA)和最小绝对收缩与选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)方法,筛选出具有显著差异的特征,并通过五折交叉验证确定惩罚系数。

模型构建与性能评价

根据筛选的放射组学特征计算放射评分(Rad-Score)。结合具有统计显著性的临床特征,用支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic Regression,LR)算法分别构建 ML 模型。实现模型优化采用网格搜索法和五折交叉验证。

列线图模型通过多变量逻辑回归分析构建,纳入 Rad-Score 和临床特征,最终生成用于预测 EGFR 突变状态及亚型的列线图。

模型性能通过受试者工作特征曲线下的面积(Area under the Curve,AUC)及一致性指数(Concordance Index,C-index)进行评价。此外,使用决策曲线分析(Decision Curve Analysis,DCA)评估模型的临床收益。


研究主要结果

ML 模型的性能

在 EGFR 突变状态的预测中,最佳 ML 模型(LR)在测试集上的 AUC 为 0.732;在 L858R 和 EGFR- 的区分中,最佳模型 AUC 为 0.826;在 19del 和 EGFR- 的区分中,最佳模型 AUC 达到 0.773(SVM 和 LR 均达到这一值)。

列线图模型的性能

列线图模型在不同组别中的 C-index 均表现出较高的预测能力。例如,训练集中预测 EGFR 突变状态的 C-index 为 0.844,测试集中为 0.781;预测 L858R 的 C-index 为 0.801;预测 19del 的 C-index 为 0.689。

决策曲线分析结果

DCA 显示,在所有组别中,列线图模型与 ML 模型均比“全治疗”或“全不治疗”的策略具有更高的净收益。其中,对于高于 15%-20% 风险阈值的场景,列线图模型的净收益超过 ML 模型。


研究结论及意义

本研究的主要结论是基于放射组学特征和临床特征构建了预测 EGFR 突变状态及亚型的 ML 模型和列线图模型。尽管两种模型的 AUC 表现接近,但列线图模型在决策曲线分析中表现出更高的临床效用。此外,列线图因其简单的可视化形式在临床应用中具有潜在优势。

这项研究的意义在于证明了结合放射组学的列线图模型可以作为 EGFR 突变检测的补充手段,尤其适用于常规活检方法受限的情形。通过无创方式预测 EGFR 突变及亚型,可以帮助临床医生制定更精准的个性化治疗方案。


研究亮点

  1. 结合放射组学和临床特征:在同一数据集上同时构建和比较 ML 模型与列线图模型,填补了现有研究的空白。
  2. 高效的预测能力:列线图模型通过简单的可视化工具实现了较高的预测性能,同时在临床实用性上优于 ML 模型。
  3. 对 EGFR 亚型(L858R 和 19del)的区分能力较强:尤其在 L858R 的预测中表现出优异的性能。

限制与未来展望

研究的主要限制是样本量相对较少,尤其是 19del 和 L858R 亚型的样本规模有限。此外,列线图模型尚未使用外部数据集进行验证;未来研究应引入更大规模、多中心的数据集以进一步验证模型的鲁棒性。同时,更多临床变量如病理数据的引入可能进一步提升模型的预测效率。


本研究通过无创影像学方法对 EGFR 突变状态和亚型的预测提供了一种有力途径,为肺腺癌患者的个性化治疗提供了新的工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com