本文向您介绍一项发表于《Journal for ImmunoTherapy of Cancer》2025年第13卷的研究,题为“NeoPred: dual-phase CT AI forecasts pathologic response to neoadjuvant chemo-immunotherapy in NSCLC”。这项研究由来自广州医科大学附属第一医院、上海交通大学医学院附属胸科医院、辽宁省肿瘤医院、西安交通大学第一附属医院等多家中国顶尖胸部肿瘤中心的团队合作完成,通讯作者为梁恒瑞教授与何建行教授。该研究旨在解决可切除非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)新辅助化疗免疫治疗后,术前准确预测主要病理缓解(Major Pathological Response, MPR)或病理完全缓解(Pathological Complete Response, pCR)这一关键的临床未满足需求。
研究背景与目的 在早期或局部晚期NSCLC的治疗中,新辅助免疫治疗已成为改善患者无病生存期(Disease-Free Survival, DFS)的有前景策略。然而,由于NSCLC的异质性,并非所有患者都对免疫治疗有反应。研究表明,新辅助免疫治疗后的MPR率约为20-50%,pCR率可达30%。达到MPR或pCR与患者更好的长期生存预后显著相关,甚至引发了对于达到pCR的患者是否可以免于手术的探讨。因此,在术前准确预测病理反应,对于胸外科医生制定手术决策(如手术时机、切除范围、乃至手术必要性)以及实现个体化治疗计划至关重要。
目前,评估治疗反应的金标准是术后病理活检,但这具有滞后性。传统的基于影像学大小的评估标准(如RECIST v1.1)在免疫治疗时代可靠性有限,因为可能出现假性进展等特殊反应模式。近年来,深度学习为利用医学影像进行术前无创预测提供了新的可能。然而,此前的研究多为单中心或单模态,限制了模型的普适性。为此,本研究团队开发了名为“NeoPred”的深度学习模型,这是一个基于多中心、双期相CT图像并结合临床特征的多模态人工智能系统,旨在更可靠、无创地预测NSCLC患者对新辅助化疗免疫治疗的病理反应。
详细研究流程与方法 本研究是一项回顾性与前瞻性相结合的多中心研究,工作流程严谨而系统。
1. 数据收集与患者队列构建: 研究回顾性收集了2018年3月至2023年3月期间,来自中国四家胸部肿瘤中心的连续509例NSCLC患者数据。这些患者在经过新辅助化疗免疫治疗后接受了手术切除。四家中心包括:广州医科大学附属第一医院(定义为内部中心)、辽宁省肿瘤医院(外部中心1)、西安交通大学第一附属医院(外部中心2)和上海胸科医院(外部中心3)。此外,自2023年3月起,研究还前瞻性纳入了来自内部中心的额外50名患者。所有患者均需满足明确的纳入和排除标准,以确保数据的完整性和质量。最终,研究将内部中心(回顾性部分)和外部中心1、2的数据合并作为训练集(共400例),将外部中心3的数据(59例)作为外部验证集,将内部中心的前瞻性数据(50例)作为前瞻性验证集,用于最终的性能测试和与放射科医生的对比。
2. 模型开发与训练: 研究团队构建了三个基于三维卷积神经网络(3D-CNN)的影像模型进行对比:(1) 仅使用治疗前CT的模型;(2) 仅使用手术前CT的模型;(3) 结合治疗前和手术前CT的双期相模型(即NeoPred的核心影像部分)。在模型架构选择上,研究者测试了MobileNet、ResNet-18和One-hot编码等基础网络,最终发现基于MobileNet架构的双期相CT模型表现最佳,因此被选为基础模型。
数据处理流程复杂且精细。首先,将DICOM格式的CT图像转换为NumPy数组,并分别用肺窗和纵隔窗进行处理。随后,使用专门的CT帧插值算法将所有扫描的层厚标准化为1毫米,并应用高斯降噪技术。由经验超过5年的放射科医生手动标注肿瘤体积的兴趣区域。为增强模型的鲁棒性,研究采用了数据增强技术,如在三个维度上进行随机旋转(RandRotate)。
3. 模型整合与优化: 最佳的双期相CT模型(NeoPred)进一步与临床变量进行了整合,构建了联合模型。整合的临床变量包括年龄、性别、体重指数(BMI)、临床T分期、N分期、TNM分期、肿瘤位置和病理类型。对于连续变量(如年龄、BMI)进行标准化处理,对于分类变量则使用嵌入层进行处理。模型的损失函数采用均方误差(Mean Squared Error, MSE)。一个关键的技术创新是引入了“软标签”进行监督训练:对于术后标本,根据病理反应程度分配连续值标签(0代表未达到MPR;0.8代表达到MPR但非pCR;1代表pCR),这使模型能更好地学习病理反应的连续谱,而非简单的二元分类。
4. 模型验证与人工对比: 模型性能通过受试者工作特征曲线下面积(Area Under the Curve, AUC)、敏感性、特异性、准确性等指标进行评估。在前瞻性验证集中,研究设计了一个关键环节:将NeoPred的预测性能与9名持有认证的放射科医生(4名高年资、5名低年资)进行对比。对比分为两部分:首先是NeoPred与医生独立诊断的对比;其次是评估NeoPred作为辅助工具对医生诊断性能的提升。医生首先仅基于CT图像独立判断MPR,随后获知NeoPred的预测结果,并决定是否采纳模型的建议,最终记录其初始和最终诊断决策。
5. 亚组分析与统计方法: 为了进一步验证NeoPred的临床实用性,研究特别对影像学评估为疾病稳定(Stable Disease, SD)的患者亚组进行了分析,因为这部分患者是传统RECIST标准最难评估的群体。此外,研究还根据RECIST标准、T分期、N分期、TNM分期、病理类型和N分期降期等多个维度进行了广泛的亚组分析。统计方面,使用卡方检验或Fisher精确检验比较基线特征,使用DeLong检验比较AUC差异,使用McNemar检验比较准确性、敏感性和特异性的差异。
主要研究结果 1. 模型预测性能: 在外部验证集(n=59)中,基于双期相CT的NeoPred模型(MobileNet架构)展现出最佳的预测性能,其AUC达到0.772(95% CI: 0.650-0.895),敏感性和特异性分别为0.591和0.733。相比之下,仅用治疗前CT或仅用手术前CT的模型性能较差(AUC分别为0.649和0.686)。将临床变量整合到双期相模型中后,AUC进一步提升至0.787(95% CI: 0.670-0.905)。应用数据增强技术(RandRotate)的模型AUC为0.777。分析显示,达到MPR患者的深度学习评分显著高于未达到MPR的患者(p<0.001),证明了模型的有效区分能力。研究还通过散点图直观展示了基于RECIST标准的肿瘤退缩率与病理反应之间缺乏明确相关性,突显了传统影像评估标准的局限性。
2. 与人类专家对比: 在前瞻性验证集(n=50)中,NeoPred仅使用双期相CT的AUC为0.760(95% CI: 0.628-0.891),超过了9名放射科医生平均AUC(0.720,95% CI: 0.574-0.865)。更重要的是,当NeoPred作为辅助工具提供给医生后,医生的集体诊断性能得到显著提升:AUC从0.720提高至0.829(95% CI: 0.707-0.951),诊断准确性从0.700提升至0.820。分析发现,高年资医生在获得AI辅助后,性能提升幅度大于低年资医生。这证明了NeoPred不仅自身性能优越,还能有效辅助临床医生,提升诊断水平。
3. 在疾病稳定(SD)亚组中的表现: 这是本研究的一个亮点。在传统影像评估认为“稳定”的患者中,NeoPred依然表现出强大的预测能力。在外部验证集的SD亚组中,双期相模型的AUC为0.742(95% CI: 0.468-1.000);在前瞻性验证集的SD亚组中,AUC高达0.833(95% CI: 0.497-1.000),准确性达0.769。这表明NeoPred能够识别出那些影像学大小变化不明显、但内部已发生显著治疗反应的肿瘤,解决了临床评估的一大难点。
4. 其他亚组分析: 模型在不同RECIST反应分组、不同T/N/TNM分期、不同病理类型(鳞癌 vs. 其他)以及是否实现N分期降期的患者中均表现出稳定的预测性能,详细结果见论文补充材料,证明了其广泛的适用性。
研究结论与意义 本研究成功开发并验证了NeoPred,一个基于双期相CT和临床特征的多中心深度学习模型,用于无创预测NSCLC患者新辅助化疗免疫治疗后的病理反应。主要结论如下: 1. 有效预测: NeoPred能够可靠地预测MPR,其性能优于仅基于单时间点CT的模型,并且在外部和前瞻性验证中均表现出色。 2. 超越人工: 在前瞻性对比中,NeoPred的预测能力超越了未经辅助的放射科医生集体平均水平。 3. 提升临床: NeoPred作为决策辅助工具,能显著提升放射科医生(尤其是高年资医生)的诊断准确性和AUC。 4. 破解难题: NeoPred在影像学评估为疾病稳定(SD)的患者亚组中依然保持强大的预测力,这对于指导这部分“灰色地带”患者的临床决策具有特殊价值。
本研究的科学价值在于,它首次构建并前瞻性验证了一个整合多期相影像时序变化信息的多中心AI预测模型,为NSCLC新辅助免疫治疗的疗效评估提供了新的、更精准的工具。其应用价值巨大:该模型有望在术前帮助医生更准确地识别治疗应答者与非应答者,从而指导个体化治疗决策,例如对可能达到pCR的患者探讨更保守的手术策略,或对无应答者及时调整治疗方案。这有助于实现精准医疗,优化医疗资源分配,并可能改善患者预后。
研究亮点与创新 1. 多中心、前瞻性验证设计: 研究数据来源于中国四个主要医疗中心,并包含了独立的外部验证集和前瞻性验证集,极大地增强了研究结果的可靠性和临床推广潜力。 2. 双期相CT时序信息整合: 模型创新性地同时利用治疗前和治疗后的CT图像,捕捉肿瘤在治疗过程中的动态变化特征,这比单一时间点的图像包含更丰富的预测信息。 3. 严谨的人机对比: 研究不仅测试模型本身的性能,还设计了前瞻性的、盲法的人机对比实验,客观量化了AI模型对临床医生诊断水平的提升作用,为AI辅助诊断的临床落地提供了实证依据。 4. 聚焦临床难点——SD亚组: 专门针对传统影像评估最棘手的“疾病稳定”患者进行亚组分析,并证明模型在此类患者中仍有良好效能,直击临床痛点。 5. “软标签”训练策略: 采用反映病理反应连续谱的软标签进行模型训练,而非简单的二元分类,使模型能学习更细微的病理-影像关联,可能提高了模型的判别能力。 6. 多模态融合: 将深度学习提取的影像特征与关键的临床病理特征相结合,构建了更全面的预测模型。
其他有价值的内容 研究在讨论部分深入分析了当前免疫治疗疗效评估的挑战,特别是RECIST标准在免疫治疗时代的局限性(如假性进展),并指出基于深度学习的模型能够捕捉肿瘤纹理、形态和背景的细微特征(如免疫细胞浸润模式、坏死核心),这些特征可能比单纯的大小变化更能反映真实的生物学反应。同时,作者也坦诚地指出了研究的局限性,包括:虽然样本量较既往研究大,但进一步扩大样本量和纳入更广泛的人群(如不同种族)将有助于提升模型的普适性;模型主要基于中国人群数据,在其他医疗体系和人群中的表现仍需进一步验证;AI模型的“黑箱”特性仍是临床广泛接受的障碍。这些都为未来的研究方向提供了清晰的指引。