这篇文档发表于学术期刊 Heliyon (Volume 10, 2024, e24371),于2024年1月12日在线发表。研究是一项回顾性研究,旨在探讨一种结合了放射组学(Radiomics)和病理组学(Pathomics)特征的新方法,用于预测乳腺癌患者对新辅助化疗(Neoadjuvant Chemotherapy, NAC)的病理学完全缓解(Pathological Complete Response, pCR)。
研究的作者与机构 本研究的主要作者包括Nan Xu, Xiaobin Guo, Zhiqiang Ouyang, Fengming Ran, Qinqing Li, Xirui Duan, Yu Zhu, Xiaofeng Niu, Chengde Liao, Jun Yang。通讯作者是Chengde Liao和Jun Yang。作者单位主要来自中国云南省的医疗机构:昆明医科大学第三附属医院/云南省肿瘤医院放射科(Nan Xu, Qinqing Li, Yu Zhu, Xiaofeng Niu, Jun Yang)和病理科(Fengming Ran);阜外华中心血管病医院放射科(Xiaobin Guo);昆明市延安医院/昆明医科大学附属延安医院放射科(Zhiqiang Ouyang, Xirui Duan, Chengde Liao)。Nan Xu和Xiaobin Guo为共同第一作者。
学术背景 乳腺癌的新辅助化疗已成为局部晚期乳腺癌和肿瘤较大但希望保乳患者的标准治疗组成部分。NAC可以使肿瘤缩小、降低临床分期、提高手术成功率,并使部分患者达到病理学完全缓解(pCR),从而获得更长的无病生存期和总生存期。然而,不同患者对NAC的反应差异巨大,约有2%-30%的患者无法从中获益,反而可能因延迟手术窗口期而面临肿瘤耐药、转移风险增加以及过度治疗等问题。因此,在化疗开始前有效、全面地评估和预测患者是否能从NAC中获益至关重要。
近年来,放射组学作为一种创新的图像定量分析方法,通过从医学影像中提取大量肉眼无法识别的高维特征,并结合机器学习等方法,在疾病表征、疗效评估和预后预测方面展现出巨大价值。多参数磁共振成像(Multiparametric MRI, mp-MRI)是乳腺癌最敏感的影像学方法,基于mp-MRI的放射组学可以更好地反映肿瘤的生物学异质性。然而,放射组学的预测效能常常依赖于算法和模型的选择,且以往研究多聚焦于肿瘤的形态学分析。与此同时,研究表明肿瘤的病理学特征,如肿瘤浸润淋巴细胞等,也可能独立影响NAC的疗效。病理组学作为新兴领域,通过对全切片数字图像(Whole Slide Image, WSI)进行定量分析,可以避免传统病理评估的主观误差,提供更客观的细胞水平信息。因此,本研究提出假设:将反映整体肿瘤异质性的MRI放射组学特征与反映细胞水平异质性的病理组学特征相结合,可能构建出更优越的预测模型,从而在治疗前更准确地识别可能达到pCR的患者,为个体化治疗决策提供依据。
本研究的主要目的是:利用基线期的多参数MRI(包括动态增强T1加权成像和扩散加权成像)以及苏木精-伊红(H&E)染色的活检切片全数字化图像,分别提取定量特征信息,结合机器学习方法,构建并比较基于单一模态(放射组学或病理组学)以及融合多模态(放射病理组学)的特征标签模型,用于预测乳腺癌患者接受NAC后的病理完全缓解状态。
详细研究流程 本研究为单中心回顾性研究,工作流程主要包括患者数据收集、影像与病理数据获取与处理、特征提取与筛选、预测模型构建与验证、以及统计分析等多个步骤。
第一步:患者入组与数据收集 研究获得了医院伦理委员会的批准,并豁免了知情同意。研究连续纳入了2016年8月至2018年1月期间在医院接受NAC的乳腺癌患者。研究对象的筛选标准通过流程图展示(文中Fig. 1)。纳入标准包括:(1)完成了标准化NAC的乳腺癌患者;(2)治疗前进行了H&E染色活检并确诊为乳腺癌;(3)进行了标准化的基线mp-MRI检查。排除标准包括:(1)存在其他可能影响NAC疗效的肿瘤或疾病;(2)MRI图像或病理切片质量不足以进行测量;(3)患者临床数据缺失或不完整。最终,共有155名平均年龄为46岁的乳腺癌患者被纳入研究。所有患者均由主治外科医生、肿瘤学家和患者共同决定接受NAC,化疗方案包括环磷酰胺+表柔比星+多西他赛、环磷酰胺+多西他赛或表柔比星+多西他赛。患者根据病理反应分为pCR组和非pCR组。所有患者被随机分为训练集(124例,pCR占25.0%)和测试集(31例,pCR占25.8%)。两组患者的基线临床特征(如年龄、临床T/N分期、ER、PR、HER2、Ki-67状态)分布相似,除测试集中的PR状态外,均无统计学显著差异。
第二步:影像与病理数据采集 MRI图像采集:所有乳腺MRI检查均在开始NAC前1周内使用1.5T MR扫描仪完成。采集的序列包括轴位动态对比增强(DCE)图像和扩散加权成像(DWI),其中DWI采用两个b值(0和800 s/mm²)。DCE序列在注射钆对比剂(0.2 ml/kg)后进行,共采集1次平扫和8次增强后图像。 全切片图像(WSI)采集:使用活检获取的石蜡包埋组织制作的H&E染色切片用于病理诊断。采用全景数字图像扫描技术(KF-PRO-005)采集20倍放大的WSI,生成像素分辨率为0.25 μm/像素的数字病理图像,用于后续病理特征提取。
第三步:特征提取 放射组学特征提取:由两位具有10年工作经验的全职放射科医生在Siemens syngo.via工作站上,使用半自动分割算法在第一期DCE减影图像和DWI图像上勾画感兴趣区域。随后,放射组学应用程序(syngo.via, Frontier Radiomics)自动从每个患者的DCE和DWI图像中提取定量图像特征。提取的特征类型包括:18个一阶统计特征、75个纹理特征、17个形状特征和744个小波特征。纹理特征具体包括24个灰度共生矩阵(GLCM)特征、14个灰度依赖矩阵(GLDM)特征、16个灰度游程矩阵(GLRLM)特征、16个灰度区域大小矩阵(GLSZM)特征和5个相邻灰度色调差矩阵(NGTDM)特征。每位患者最终提取了1708个放射组学特征(854个来自DCE,854个来自DWI)。 病理组学特征提取:病理学家在全景数字切片上以20倍放大倍率识别肿瘤细胞区域并截取图像。随后,使用开源生物图像分析工具CellProfiler(版本3.1.9)对截取的图像进行自动分析,提取细胞核的像素强度、形态和纹理等特征,共获得260个病理组学特征。
第四步:特征筛选与模型构建 特征筛选流程如图所示(文中Fig. 2)。首先,使用组内相关系数(ICCs)评估观察者间一致性。放射组学特征的观察者间ICC范围为0.89-0.95,病理组学特征的ICC范围为0.83-0.97,表明特征提取具有良好的可重复性。ICC大于0.75的特征被保留。 随后,分别对训练集的MRI放射组学特征、病理组学特征以及融合的放射病理组学特征进行筛选:(1)通过皮尔逊相关性分析,排除相关性系数高于0.9的特征以消除冗余;(2)使用单因素方差分析(ANOVA)保留方差最大的前50个特征;(3)最后使用最小绝对收缩和选择算子(LASSO)回归进行特征选择(文中补充材料Fig. 1)。经过筛选,最终分别得到了15个MRI放射组学特征、4个病理组学特征和29个放射病理组学特征。 利用筛选出的特征,研究构建了三种特征标签模型:仅使用病理组学特征的病理组学标签(PS)模型、仅使用放射组学特征的放射组学标签(RS)模型、以及结合两者的放射病理组学标签(RPS)模型。对于每种特征集,研究者采用了四种机器学习建模方法:逻辑回归(Logistic Regression)、朴素贝叶斯(Naïve Bayesian)、随机森林(Random Forest)和XGBoost。所有模型在训练过程中均采用了5折交叉验证法。
第五步:统计分析 使用曼-惠特尼U检验或t检验比较连续变量,卡方检验比较分类变量。通过受试者工作特征(ROC)曲线分析评估PS、RS和RPS模型的预测能力,计算曲线下面积(AUC)、准确率(Accuracy)、灵敏度(Sensitivity)、特异性(Specificity)、阳性预测值(PPV)和阴性预测值(NPV)。使用DeLong检验判断三种模型间预测能力的差异是否具有统计学意义。此外,还通过决策曲线分析(DCA)和校准曲线评估了模型的临床实用性和校准度。
主要研究结果 特征筛选与模型初步评估结果:经过ICC、相关性分析、ANOVA和LASSO筛选,最终分别保留了15个MRI放射组学特征、4个病理组学特征和29个放射病理组学特征用于建模。在训练集上进行的5折交叉验证结果显示:仅使用放射组学特征时,朴素贝叶斯和随机森林模型的准确率最高(均为0.71),逻辑回归模型的AUC最高(0.68);仅使用病理组学特征时,逻辑回归模型表现最佳(准确率0.75,AUC 0.71);而结合两组特征后,各模型的参数均得到提升,其中朴素贝叶斯模型表现最优(准确率0.89,AUC 0.96)。这表明融合特征能显著提升模型的预测潜力。
训练集与测试集的模型性能比较: 训练集结果(文中Table 2及Fig. 3a-c):RS模型的最佳AUC为0.68(逻辑回归),准确率为0.73;PS模型的最佳AUC为0.71(逻辑回归),准确率为0.76;而RPS模型的最佳AUC达到0.83(逻辑回归),准确率为0.84,其敏感度为0.87。这表明在训练集上,融合模型(RPS)的性能已优于单一模态模型。 测试集结果(文中Table 3及Fig. 3d-f):这是评估模型泛化能力的关键。RS模型的最佳AUC为0.83(逻辑回归),但准确率较低(0.64),敏感度仅为0.62。PS模型的最佳AUC仅为0.60(随机森林),准确率为0.74。相比之下,RPS模型展现出了卓越的性能:其中基于朴素贝叶斯算法的RPS模型取得了最佳表现,AUC高达0.91,准确率为0.90,敏感度为0.88,特异性为0.91。这一结果明确显示,融合了放射与病理信息的RPS模型在独立测试集上具有最优且稳定的预测能力。
模型比较的统计学意义:DeLong检验结果显示,仅基于病理组学特征的模型与基于融合特征的模型之间,AUC值存在显著差异(p = 0.03)。而仅基于放射组学特征的模型与基于融合特征的模型之间,AUC值差异无统计学意义(p = 0.32);仅基于病理组学与仅基于放射组学的模型之间也无显著差异(p = 0.41)。这进一步说明,虽然单独使用放射组学已具有一定的预测能力,但将病理组学信息融合进来能带来具有统计学意义的性能提升。
决策曲线与校准曲线分析(文中Fig. 4):决策曲线分析显示,在测试集中,与使用放射组学特征的随机森林模型和使用病理组学特征的随机森林模型相比,基于放射病理组学特征的朴素贝叶斯模型在整个阈值概率范围内都表现出更高的净收益。校准曲线表明,该朴素贝叶斯模型的预测概率与乳腺癌新辅助化疗的实际结局具有良好的一致性,而其他两个模型的校准度相对较差。
特征重要性分析:在最终构建的RPS模型中,系数最高的前三个特征均为放射组学特征,分别来自DWI序列的小波-HHL一阶最大值特征(wavelet-HHL_firstorder_maximum_DWI)、DWI序列的小波-HHL灰度共生矩阵逆差特征(wavelet-HHL_GLCM_inversevariance_DWI)和T1增强序列的小波-LHH灰度共生矩阵IMC2特征(wavelet-LHH_GLCM_IMC2_T1)。其中,一阶最大值特征值越大,患者达到pCR的可能性越高;而后两个纹理特征(逆差和IMC2)的系数为负,意味着其值越大,患者达到pCR的可能性越低。这些特征揭示了肿瘤在影像上的异质性可能与治疗反应相关。
研究结论 本研究的核心结论是:将多参数MRI获取的肿瘤整体功能、形态学信息(放射组学)与活检切片提供的细胞水平生物学信息(病理组学)相结合的分析方法,能够构建一个全面、准确、非侵入性的信息平台,用于预测乳腺癌患者对新辅助化疗的疗效。 具体而言,基于放射病理组学特征构建的预测模型(尤其是采用朴素贝叶斯算法),在预测病理完全缓解方面表现出优越的性能(测试集AUC 0.91,准确率0.90),显著优于仅基于单一模态信息的模型。 这一研究结果表明,放射病理组学这种多模态融合策略,能够更全面地捕捉肿瘤的异质性,从而更可靠地预测个体患者对治疗的反应差异。这有助于在治疗前对患者进行更精确的风险分层,识别出可能从NAC中高度获益或几乎不获益的患者群体,从而为制定更个性化、更具针对性的临床决策(如调整化疗方案或直接手术)提供有力证据,避免部分患者承受无效治疗的毒副作用并错过最佳手术时机。
研究的亮点 1. 多模态融合的创新性:本研究的主要创新点在于首次将基于多参数MRI的放射组学与基于H&E全切片图像的病理组学相结合,构建“放射病理组学”模型,用于预测乳腺癌NAC疗效。这种融合从宏观影像和微观细胞两个层面整合信息,是对传统单模态预测方法的重要推进。 2. 优越且可验证的预测性能:研究不仅展示了融合模型在训练集上的优势,更在独立测试集上取得了AUC 0.91的高预测精度,并通过决策曲线和校准曲线证实了其良好的临床适用性和可靠性。 3. 系统化的特征工程与模型比较:研究采用了严格的特征提取、筛选和建模流程,包括ICC评估可重复性、相关性分析、ANOVA和LASSO特征降维,并系统比较了四种主流机器学习算法在三种特征集上的表现,工作严谨、透明。 4. 明确的临床转化价值:研究直接针对乳腺癌新辅助化疗疗效预测这一临床痛点,所构建的模型具有明确的临床应用前景,有望在未来辅助医生进行个体化治疗决策。 5. 对算法选择的启示:研究发现,对于高维、可能包含噪声的融合特征数据,朴素贝叶斯算法因其对噪声不敏感、专注于重要特征的特点,表现优于随机森林等集成算法,这为类似多模态数据的建模提供了算法选择参考。
研究的局限性 作者也指出了本研究的局限性: 1. 样本量有限且为单中心回顾性研究:纳入的病例数(155例)相对较少,且缺乏外部独立验证队列。这主要受限于符合严格入排标准的患者数量。未来的研究需要在更大规模、多中心的前瞻性队列中进行验证。 2. 病理组学特征体系尚不成熟:病理组学作为一个新兴领域,目前可提取的特征数量有限(本研究为260个),且缺乏像放射组学那样的标准化特征定义和验证体系。需要更多研究者共同开发和标准化病理组学特征。 3. 未纳入更多临床或分子特征:本研究主要聚焦于影像和病理图像特征,未来可考虑整合患者的临床病理指标(如分子分型)以构建更强大的预测模型。
这项研究为乳腺癌新辅助化疗的疗效预测提供了一种有前景的多模态人工智能解决方案,强调了结合宏观影像与微观病理信息的重要性,为推进精准肿瘤学实践迈出了坚实的一步。