关于AI衍生的纵向多维度CT分类器用于优化非小细胞肺癌新辅助化疗免疫治疗决策的多中心回顾性研究的学术报告
一、 研究作者、机构与发表信息
本研究由叶冠超(Guanchao Ye)、魏志涛(Zhitao Wei)、韩楚(Chu Han)、吴广尧(Guangyao Wu)等作为共同第一作者,施振伟(Zhenwei Shi)、刘再毅(Zaiyi Liu)、齐宇(Yu Qi)、周海宇(Haiyu Zhou)作为共同通讯作者领导的多中心、跨学科团队完成。参与机构包括中国郑州大学第一附属医院、华南理工大学医学院、广东省人民医院(广东省医学科学院)、南方医科大学、华中科技大学同济医学院附属协和医院,以及荷兰马斯特里赫特大学医学中心+(Maastricht University Medical Centre+)等国内外多个知名医疗与研究机构。
该研究成果以题为《ai-derived longitudinal and multi-dimensional ct classifier for non-small cell lung cancer to optimize neoadjuvant chemoimmunotherapy decision: a multicentre retrospective study》的论文形式,于2025年10月7日在线发表于国际知名医学期刊《eClinicalMedicine》(隶属于《柳叶刀》系列期刊)2025年第89卷。论文数字对象标识符(DOI)为 https://doi.org/10.1016/j.eclinm.2025.103551。本研究已在ClinicalTrials.gov注册(注册号:NCT06285058)。
二、 学术背景与研究目的
本研究属于医学影像人工智能与肿瘤精准治疗交叉领域,具体聚焦于非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)的新辅助化疗免疫治疗(Neoadjuvant Chemoimmunotherapy, NACi)疗效预测。
研究背景: 新辅助化疗免疫疗法已显著改善了可切除NSCLC患者的生存率。然而,当前临床实践中缺乏能够在治疗前准确预测哪些患者将从中受益,以及手术前准确判断哪些患者已达到病理完全缓解(Pathological Complete Response, pCR)的非侵入性方法。现有标准方法存在明显局限:1)PD-L1检测作为主要生物标志物,受限于组织取样偏差、程序复杂性和预测准确性有限(研究数据显示其准确率仅为0.622);2)基于CT的实体瘤疗效评估标准(Response Evaluation Criteria in Solid Tumors, RECIST)与病理结果相关性差,常因免疫细胞浸润导致的假性病灶而误判(其准确率为0.651)。因此,开发一种能够无创、准确预测NACi疗效的工具,对于实现个体化治疗、避免无效治疗毒副作用、优化手术决策(如为达到pCR的患者探索免手术策略)具有迫切的临床需求。
研究目的: 为克服上述挑战,本研究旨在开发并验证一个基于人工智能的、整合了纵向(治疗前后)和多维度影像特征的CT分类器系统,命名为“肺癌新辅助免疫化疗反应预测器”(Lung Cancer Neo-adjuvant Immuno-Chemotherapy Response Predictor, LC-NICER)。该系统包含两个互补的预测模型:LC-NICER α(治疗前模型),用于在治疗开始前识别可能从NACi中获益的患者,以指导个性化治疗决策;LC-NICER δ(术前模型),用于在手术前评估肿瘤退缩和切除可行性,为手术规划提供信息。最终目标是建立一个能够捕获肿瘤时空异质性的非侵入性预测范式,以优化NSCLC患者的NACi决策。
三、 详细研究流程
本研究是一项多中心回顾性研究,遵循TRIPOD+AI报告指南,流程严谨,可分为以下几个核心步骤:
1. 研究设计与患者队列: 研究纳入了2019年1月至2024年12月期间,在中国三家医院(中心A:华中科技大学协和医院;中心B:郑州大学第一附属医院;中心C:广东省人民医院)接受NACi随后进行手术切除的534例NSCLC患者。所有患者均经活检确诊。研究排除了治疗前接受过抗癌治疗、存在远处转移或临床信息/CT图像不完整的患者。最终,中心A和中心B的386例患者按8:2的比例随机分为训练集(308例)和内部验证集(78例)。中心C的148例患者作为独立的外部测试集,用于最终评估模型的泛化能力。所有影像数据均经过匿名化处理。
2. 影像数据采集与病理/临床标准定义: 所有患者在治疗前(T0,治疗开始前14天内)和术前(T1,计划手术前7-14天)接受了对比增强CT扫描。LC-NICER α模型仅使用T0期扫描,而LC-NICER δ模型整合了T0和T1期扫描。病理完全缓解(pCR)的定义严格遵循国际肺癌研究协会(IASLC)指南,由经验丰富的病理学家评估,定义为肿瘤床和淋巴结中均无残留存活肿瘤细胞(ypT0和ypN0)。临床完全缓解(cCR)则依据RECIST 1.1标准,由资深放射科医生评估。
3. 多维度特征提取与选择: 这是本研究的核心技术环节。研究团队从CT图像中提取了三种互补的多维度特征: * 放射组学(Radiomics)特征: 量化肿瘤的纹理、形状和强度等异质性。 * 深度学习(Deep Learning)特征: 利用预训练的基础模型,从图像中自动学习高层次的、与肿瘤微环境相关的抽象特征。 * 栖息地成像(Habitat Imaging)特征: 这是一种创新方法,将肿瘤及其周围不同距离(如3mm、5mm、7mm)的瘤周区域分割成不同的生物学亚区(Subregions, SRs),并分析这些亚区在治疗前后的动态时空变化模式,如新出现、消失、增强、减弱或不变。
特征提取后,实施了一套严格的四步特征选择流程以确保模型稳健性:1)移除低方差特征(变异系数<75%);2)剔除高相关性特征(Spearman相关系数>0.75);3)通过t检验或Mann-Whitney U检验筛选在pCR与非pCR组间有显著差异的特征(p<0.05);4)使用LASSO回归结合5折交叉验证,自动选择最具信息量的特征,避免过拟合。
4. 预测模型架构构建: 研究采用了分层框架构建预测模型: * 基础模型开发: 分别针对放射组学、深度学习和栖息地成像特征,在三个时间维度(治疗前、治疗后、变化值Delta)上构建独立的预测模型,生成相应的Radiomics-score、DL-score和HI-score。 * 多维度整合: 将上述三个特征类别的分数进行融合,为每个时间维度创建综合模型,得到Prescore(治疗前综合分数)、Postscore(治疗后综合分数)和Deltascore(变化值综合分数)。 * 时间维度整合: 最终,通过集成学习(文中提及使用MediaI Hub平台),将Prescore、Postscore和Deltascore这三个时间维度的综合分数进行整合,形成最终的LC-NICER预测系统。这种架构充分利用了多模态特征和时间动态变化的互补信息。
5. 模型性能评估与统计分析: 模型性能通过曲线下面积(Area Under the Curve, AUC)、准确率(Accuracy, Acc)、敏感性(Sensitivity, Sen)、特异性(Specificity, Spe)等指标进行评估,并计算95%置信区间。使用Wilcoxon符号秩检验或配对t检验比较整体性能差异,使用DeLong检验比较AUC差异。研究还将LC-NICER的性能与当前临床金标准PD-L1(用于LC-NICER α对比)和RECIST cCR(用于LC-NICER δ对比)进行了直接比较。此外,还进行了亚组分析(按年龄、性别、T分期等)以评估模型的普遍性,并使用了SHAP(Shapley Additive Explanations)值分析来解释各个特征对模型预测的贡献度。
四、 主要研究结果
1. 患者基线特征与队列划分: 在总共534例患者中,202例(37.8%)达到pCR,332例(62.2%)未达到pCR。统计分析显示,pCR组与非pCR组在性别、吸烟史、病理类型、T分期、治疗前后乳酸脱氢酶(LDH)水平、治疗后全身免疫炎症指数(SII)和中性粒细胞-淋巴细胞比值(NLR)等方面存在显著差异,这为模型预测提供了潜在的临床关联背景。三个中心(A、B、C)的患者在病理类型和临床分期等基线特征上存在一些固有差异,这增强了外部测试集的挑战性和模型验证的严格性。
2. 模型预测性能卓越: * 整体性能: 最终的LC-NICER δ模型在训练集、内部验证集和外部测试集中均表现出色,AUC值分别高达0.950、0.889和0.870,显示了强大的预测能力和良好的泛化能力。 * 时间维度贡献: 在测试集中,仅使用治疗前特征的模型(AUC: 0.734)、仅使用治疗后特征的模型(AUC: 0.781)和使用变化值(Delta)特征的模型(AUC: 0.796)均有效,但整合了所有时间维度的LC-NICER δ模型性能最优,证明了纵向数据整合的价值。 * 特征维度贡献: 统计分析(Kruskal-Wallis检验)表明,放射组学、深度学习和栖息地成像特征得分之间存在显著差异(p<0.001),说明它们捕获了肿瘤不同方面的互补信息。其中,放射组学和栖息地成像特征在预测中扮演了主导角色。 * 超越临床标准: 这是本研究的关键发现。在治疗前预测方面,LC-NICER α的准确率(0.722)显著高于PD-L1检测(0.622),p=0.002。在术前评估方面,LC-NICER δ的准确率(0.831)大幅优于RECIST cCR标准(0.651),p=0.008。具体而言,LC-NICER δ的敏感性(0.881)远高于cCR(0.089),而特异性(0.802)与cCR极高的特异性(0.994)相比虽略低,但综合准确率显著提升,表明其能更有效地识别出真正的pCR患者,避免RECIST标准下的大量漏诊(假阴性)。
3. 栖息地成像揭示肿瘤时空异质性: 栖息地成像分析成功揭示了肿瘤及瘤周亚区在治疗前后动态时空关系(Dynamic Spatiotemporal Relationship, DSR)的五种变化模式:新出现、消失、增强、减弱和不变。通过特征选择,研究识别出了与pCR预测显著相关的关键亚区。例如,研究发现: * 与治疗抵抗相关的亚区: 如post_peri5_sr4和post_peri7_sr4,当它们在病例中重要性最高时,100%和71.4%特异性地与非pCR相关。这些亚区通常表现为轮廓不规则、强化不均匀、分布散在、边缘毛刺等影像特征。 * 与治疗反应良好相关的亚区: 如post_peri5_sr1和pre_tumor_sr3,分别有83.3%和50.4%的概率与pCR相关。这些亚区特征为边界清晰、光滑、强化均匀、无毛刺。 * 定量分析显示: 尽管肿瘤全局测量值在pCR与非pCR组间无显著差异,但栖息地映射识别出了具有不同代谢活动模式(如均匀性、异质性、灌注)的空间保守生态位,这些亚区的变化与治疗反应密切相关,提供了潜在的生物标志物。
4. 模型可解释性与临床案例: SHAP值分析显示,治疗后分数(Postscore)对模型预测输出的平均影响最大,这与临床实践中医生主要依据术后CT影像评估病灶是否消失的逻辑一致。t-SNE可视化显示,提取的特征能清晰地将pCR与非pCR样本分离。研究还提供了具体的临床案例,展示了LC-NICER α和LC-NICER δ如何在不同时间点对患者进行风险分层,其预测结果与术后病理结果高度一致,并提供了包括2D/3D亚区可视化、特征热图在内的辅助工具,增强了临床可解释性和决策支持能力。
五、 研究结论与价值
本研究成功开发并验证了LC-NICER,这是一个基于纵向、多维度CT影像的AI系统,能够无创、准确地预测NSCLC患者对新辅助化疗免疫治疗的病理完全缓解。
科学价值: 1)方法论创新: 首次将放射组学、深度学习和栖息地成像特征在一个统一的纵向框架内进行整合,创造性地利用肿瘤的时空异质性进行疗效预测,为AI在肿瘤影像组学中的应用设立了新范式。2)生物学洞察: 通过栖息地成像,提供了肿瘤微环境在治疗过程中动态演变的可视化定量分析,加深了对免疫治疗反应空间异质性的理解。
应用价值: 1)临床决策优化: LC-NICER系统显著优于当前临床标准(PD-L1和RECIST),为医生提供了更可靠的治疗前患者筛选和术前疗效评估工具,有助于实现真正的个体化治疗。2)减少有创操作: 作为一种非侵入性方法,可能减少对重复活检的依赖,降低患者风险和经济负担。3)指导临床试验: 可用于加速适应性临床试验,快速识别应答者。4)探索免手术策略: 为未来对达到pCR的患者探索“观察与等待”或非手术管理策略提供了重要的决策依据。5)工具开源: 研究团队开发并开源了LC-NICER软件,促进了研究的可重复性和临床转化。
六、 研究亮点
七、 其他有价值内容
研究团队在讨论部分也坦诚指出了本研究的局限性:1)回顾性研究设计可能存在选择偏倚;2)当前模型仅依赖CT影像特征,深度学习特征因样本量和异质性限制未进行任务特异性微调,性能未完全发挥;3)未来可整合多组学数据(病理组学、基因组学等)以进一步提升性能与可解释性;4)目前仅聚焦于pCR预测,未来可扩展至对主要病理缓解、部分缓解和无应答者的完整谱系分层;5)尚缺乏基于生存数据的模型预后验证。这些为后续研究指明了清晰的方向。