基于术前CT的深度学习模型优化肺腺癌手术决策:回顾性开发与前瞻性验证
一、 研究团队与发表信息
本研究由来自首都医科大学附属北京朝阳医院呼吸疾病研究所胸外科的李新成(第一作者)、季颖(通讯作者)、胡斌(通讯作者),中国人民大学统计学院应用统计科学中心的刘建华、孟祥宇、周静,以及北京朝阳医院病理科的胡秀梅(通讯作者)、卢俊和冯伟(中南大学湘雅三医院心胸外科)共同完成。该研究成果以题为“Optimizing surgical decision-making for lung adenocarcinoma by preoperatively identifying pathological high-risk factors: retrospective development and prospective validation of a deep learning model”的论文形式,于2026年3月17日在线发表于国际学术期刊《International Journal of Surgery》。
二、 学术背景与研究目的
本研究属于医学人工智能与胸外科临床决策交叉领域。早期肺腺癌(Lung Adenocarcinoma, LUAD)的手术治疗正从传统的肺叶切除术向亚肺叶切除术(如肺段或楔形切除)转变,以保留更多健康肺组织。然而,这种转变高度依赖于对肿瘤病理高风险因素(Pathological High-Risk Factors, PHRFs)的准确识别。PHRFs包括:高比例(>5%)的高危病理亚型(微乳头状、实体型、复杂腺体结构)、肿瘤通过气腔播散(Spread Through Air Spaces, STAS)、脏层胸膜侵犯(Visceral Pleural Invasion, VPI)和淋巴血管侵犯(Lymphovascular Invasion, LVI)。研究表明,存在PHRFs的患者接受亚肺叶切除后局部复发风险显著增高。
目前,术中冰冻切片(Frozen Section, FS)评估是指导术式选择的主要实时病理手段,但其存在显著的局限性:对微乳头状等亚型敏感性低(文献报道仅21%),STAS诊断敏感性差(44-54%),VPI评估困难,且不同观察者间一致性不高。这可能导致高风险患者被误判为适合亚肺叶切除(治疗不足),或低风险患者接受不必要的肺叶切除(治疗过度)。因此,亟需一种更可靠、高效的术前预测方法。
本研究旨在开发并验证一种基于术前薄层CT扫描的深度学习模型——知识引导的图卷积网络(Knowledge-based Graph Convolutional Network, KB-GCN),用于术前无创识别早期浸润性肺腺癌的PHRFs。研究目标是通过前瞻性验证,证明该模型在检测PHRFs方面优于传统术中FS,从而为优化手术决策(肺叶切除 vs. 亚肺叶切除)提供关键的术前决策支持。
三、 详细研究流程与方法
本研究分为两个主要阶段:回顾性模型开发与验证,以及前瞻性观察性验证。整个研究流程严格遵循了相关报告规范(STROCSS指南)和AI研究治理指南(Titan guidelines 2025)。
1. 回顾性开发与验证阶段 * 研究队列与数据:研究回顾性纳入了来自两个医疗中心(北京朝阳医院和中南大学湘雅三医院)的336名患者的372个经病理证实的肺结节。所有患者均为pT1期浸润性肺腺癌,并接受了术前薄层CT扫描。根据排除标准(如图像质量差等),最终使用这些数据开发和验证模型。 * PHRFs定义与病理评估:本研究将主要终点定义为可通过FS可靠评估的PHRFs,即>5%的高危成分(微乳头状、实体型、复杂腺体结构)和STAS。VPI和LVI虽为高风险因素,但因术中难以可靠评估,未纳入主要终点。所有病理切片(包括FS和永久切片)均由两名资深胸部病理学家独立审阅,如有分歧则由第三位病理学家参与达成共识,确保病理“金标准”(Final Pathology, FP)的准确性。 * 图像预处理与结节标注:所有CT图像被重采样至统一分辨率(1x1x1 mm³),并将CT值(HU)标准化。由经验丰富的胸科放射科医生和外科医生独立标注每个结节的中心坐标和最大直径,最终坐标取所有标注的中位数。 * KB-GCN模型开发:这是本研究的核心创新方法。 * 模型架构:与传统使用二维(2D)或三维(3D)卷积神经网络(CNN)的方法不同,本研究提出了一种图卷积网络(GCN)框架。其核心思想是将一个结节的连续CT切片视为一个图结构:每一张切片是一个“节点”,切片之间的空间相邻关系构成“边”。 * 知识引导特征提取:首先,使用在ImageNet上预训练的VGG16网络作为“知识库”,对每张以结节为中心的CT图像块进行微调,提取出一个512维的深度特征向量,作为该切片节点的“属性”。 * 图构建与关系学习:基于所有切片的自然空间位置,为每个结节构建一个全连接的无向图。然后,将包含节点特征(VGG16提取的特征)的图输入到GCN模型中。GCN通过其图卷积层,能够有效聚合相邻及非相邻切片之间的特征信息,从而学习整个结节在三维空间中的整体形态和异质性特征。 * 训练与验证:使用来自北京朝阳医院的A队列(297个结节)进行模型训练和内部验证(7:3分割)。使用来自湘雅三医院的独立B队列(75个结节)进行外部验证。模型性能通过受试者工作特征曲线下面积(AUC)、敏感性、特异性等指标评估。 * 对比基线:为了证明KB-GCN的优越性,研究还训练并比较了6种经典的2D和3D CNN模型(如VGG16, Inception V3, ResNet50的2D/3D版本)。
2. 前瞻性观察性验证阶段 * 研究设计与队列:这是一项预先注册的单中心前瞻性观察性研究(中国临床试验注册号:ChiCTR2300073455)。在开始前瞻性入组前,模型架构、权重、预处理流程以及从回顾性阶段确定的决策阈值(0.40)均被“锁定”,不得更改。 * 患者纳入:连续入组了200名计划手术的临床早期(cT1N0M0)肺腺癌患者。对于每例患者,在手术前使用锁定的KB-GCN模型基于其术前CT生成PHRFs预测概率(>0.4判为阳性)。外科和病理团队对模型预测结果不知情(盲法),手术决策完全依据常规的术中FS和临床判断。 * 验证方法:将KB-GCN模型的术前预测结果、术中FS的评估结果,分别与最终的永久病理(FP)结果进行对比,以FP为金标准,评估并比较两者的诊断性能。
四、 主要研究结果
1. 回顾性验证结果: * 在内部验证集(A队列)中,KB-GCN模型预测PHRFs的AUC达到了0.92(95% CI: 0.86–0.97)。在独立外部验证集(B队列)中,AUC为0.88(95% CI: 0.81–0.94),显示出良好的泛化能力。 * KB-GCN模型的表现显著优于所有6个对比的经典CNN模型(其中最佳CNN模型的AUC为0.79),证明了其图结构在捕捉结节三维空间特征方面的优势。
2. 前瞻性验证结果: * 总体性能对比:在200例前瞻性队列中,术中FS检测PHRFs的总体敏感性为59%,准确性为77%,漏诊了40.6%(39/96)的PHRFs阳性病例。相比之下,KB-GCN模型的总体敏感性显著提高至82%,AUC为0.83,但其特异性较低(75% vs FS的92%)。这意味着KB-GCN能大幅减少高危病例的漏诊,但会稍微增加假阳性。 * 亚组分析: * 结节类型:KB-GCN模型在部分实性结节(Part-Solid Nodule, PSN)中表现最佳(AUC: 0.86),敏感性(87.5%)显著高于FS(68.1%)。在纯磨玻璃结节和纯实性结节中性能相对一般。 * 肿瘤大小:模型在2-3 cm肿瘤中表现最好(AUC: 0.86),在≤1 cm(AUC: 0.815)和1-2 cm(AUC: 0.785)肿瘤中表现中等。值得注意的是,在关键的1-2 cm肿瘤中,FS的敏感性最低(47.9%),而KB-GCN模型保持了高敏感性(85.4%),这对于临床决策至关重要。 * IASLC分级:模型预测性能与肿瘤侵袭性等级呈正相关,在高级别(3级)肿瘤中AUC最高(0.85),符合生物学逻辑。 * 错误分析:FS的假阴性主要源于漏诊微乳头状和复杂腺体结构成分,反映了术中取样局限性和FS判读难度。KB-GCN的假阴性同样多见于这些成分,但其假阳性病例多表现为CT上有侵袭性征象(如分叶、毛刺等)而病理未证实,可能反映了影像学特征的过度解读或病理取样的局限性。 * 临床决策曲线分析(DCA):分析显示,在中等至较高的风险阈值(约0.46-0.82)范围内,使用KB-GCN模型比单纯使用FS或“全部治疗/全部不治疗”策略能带来更高的临床净收益,表明其在帮助避免漏诊高危患者方面具有实际应用价值。 * 与最终手术的符合度:尽管外科医生不知晓AI结果,但KB-GCN模型推荐的手术策略(基于其预测)与实际进行的手术的符合度(68.5%)高于FS推荐策略的符合度(61.5%)。更重要的是,在13例FS阴性但实际为PHRF阳性并接受了亚肺叶切除的病例中,KB-GCN模型术前正确识别出了其中9例(69.2%),展示了其预防治疗不足的潜力。
五、 研究结论与价值
本研究首次通过前瞻性验证证明,基于术前CT的深度学习模型(KB-GCN)在识别早期浸润性肺腺癌病理高风险因素(PHRFs)方面,其敏感性显著优于传统的术中冰冻切片评估。尽管特异性略有降低,但该模型能有效弥补FS在敏感性方面的关键不足,特别是对于含有实性成分的1-3厘米肿瘤。
科学价值:本研究不仅开发了一种新颖的、性能优于传统CNN的图卷积网络模型用于医学影像分析,更重要的是,它通过严格的前瞻性、盲法设计,在真实的临床工作流程中验证了AI模型的效能,为AI辅助诊断研究提供了方法学范例。
应用价值:该模型可作为一种有价值的术前决策支持工具。外科医生可在手术前获得关于肿瘤侵袭风险的预测信息,从而更早地进行手术规划。例如,对于模型预测为高风险的患者,即使术中FS初步结果为阴性,医生也可提高警惕,考虑进行更广泛的切除或更彻底的淋巴结评估。将术前AI评估与术中FS结合,可以为胸外科医生提供更全面、准确的信息,优化个体化的手术决策(肺叶切除或亚肺叶切除),最终有望在保证肿瘤学安全的前提下,最大化肺功能保护。
六、 研究亮点
七、 其他有价值的内容
研究也坦诚指出了局限性:① 前瞻性验证为单中心,未来需要多中心验证以评估普适性;② 研究人群主要为东亚人群,需在更多种族队列中验证;③ 本研究为观察性设计,AI结果未用于实际干预,因此未能直接评估模型应用对患者结局(如过度治疗、并发症)的影响,这需要通过前瞻性干预性试验来进一步验证;④ 目前模型主要针对可通过FS评估的PHRFs(高危成分和STAS),未来需扩展至VPI和LVI的预测;⑤ 尚未将AI评估与FS整合进标准化临床路径,这是下一步研究的方向。
作者在讨论中提出了一个未来的临床整合路径图:术前KB-GCN模型提供风险分层,对于低风险预测且FS一致的患者可更有信心地进行亚肺叶切除;对于高风险预测的患者,即使FS阴性,也应倾向于更广泛的切除或更仔细的评估。最终目标是开发一个能动态整合术前AI概率与术中FS结果的融合模型,生成复合风险评分,以实现更精准、标准化的术前-术中评估流程。