基于机器学习通过精确三维CT影像组学特征计算癌症瘤内栖息地的研究
一、 研究团队与发表信息
本研究的主要作者为 Olivia Prior, Carlos Macarro, Víctor Navarro 等,通讯作者为 Raquel Pérez-López 和 Kinga Bernatowicz。研究团队主要来自西班牙巴塞罗那的 Vall d’Hebron Institute of Oncology 的影像组学小组,并联合了该研究所及瓦尔德希伯伦大学医院在分子病理学、医学肿瘤学、放射学等多个部门的研究人员。这项原创性研究成果以题为“Identification of precise 3D CT radiomics for habitat computation by machine learning in cancer”的论文形式,发表于 Radiology: Artificial Intelligence 期刊的 2024 年第 6 卷第 2 期。
二、 研究背景与目标
本研究隶属于医学影像与计算肿瘤学交叉领域,特别是影像组学(Radiomics)在癌症异质性评估中的应用。肿瘤内空间异质性是癌症的一个公认特征,指肿瘤内部存在基因组、转录组表达水平不同的克隆亚群以及多样化的肿瘤微环境。这种异质性导致了不同区域对靶向治疗可能产生不同反应甚至耐药,是临床治疗面临的重大挑战。因此,无创地检测和量化肿瘤异质性成为新的研究方向。
CT 为基础的栖息地成像(Habitat Imaging)是一种有前景的非侵入性方法,它旨在通过机器学习从CT图像中识别出具有相似影像表型的空间区域(即“栖息地”)。这种方法的核心优势在于能够三维、非侵入性地捕获整个肿瘤的异质性。然而,成功实现CT肿瘤栖息地临床转化的关键在于其基础——三维影像组学特征(3D Radiomics Features, RFs)必须具备出色的稳健性,即需要具有良好的可重复性(在相同计算条件下测量的精确度,或称测试-重测)和可再现性(在不同计算条件下测量的精确度)。然而,现有关于CT影像组学稳健性的研究多集中在将其作为独立的预测或预后生物标志物,且对三维特征在栖息地计算中的稳健性缺乏系统性评估,尤其忽视了特征计算参数(如内核半径和分箱大小)的影响。
因此,本研究的主要目标是:1)评估三维CT影像组学特征对测试-重测情景以及两个关键计算参数(内核半径和分箱大小)变化的稳健性,并从中筛选出“精确”的特征(即同时具备可接受的可重复性和可再现性);2)开发一种基于高斯混合模型的无监督机器学习方法,利用筛选出的精确特征计算肿瘤栖息地,并验证使用精确特征是否能获得更稳定的栖息地结果;3)通过一个探索性病例研究,初步探究CT计算出的栖息地与其背后的生物学特征(通过多参数MRI和组织学验证)之间的关联。
三、 详细研究流程
本研究是一项回顾性分析,工作流程复杂且环环相扣,主要包含以下步骤:
1. 研究队列与数据采集: 研究纳入了2010年11月至2021年12月期间331名癌症患者的605次CT扫描,共包含2436个肝脏或肺转移病灶。患者平均年龄64.5岁,男性185名。根据原发肿瘤部位,样本被分为四个队列:结直肠癌、肺癌、胃肠道神经内分泌肿瘤以及一个包含多种其他癌症的混合队列。此外,还有一个独立的病例研究队列,包含13名同时具有CT、多参数MRI(mpMRI)和肿瘤活检样本的患者,用于探索栖息地的生物学相关性。
2. 图像分割、扰动与特征计算: 首先,由一位经验丰富的放射科医生使用3D Slicer软件手动勾画了所有可测量病灶的整个三维体积。为了评估可重复性,研究使用医学图像放射组学处理器工具箱对原始CT图像进行了“扰动”,模拟了重测场景(即引入了模拟的图像噪声和微小变化)。然后,使用PyRadiomics软件包从每个病灶的原始图像和扰动图像中计算三维影像组学特征。计算时,特别考察了两个关键参数的影响:内核半径(定义了计算特征时考虑的相邻体素范围,测试了1毫米和3毫米)和分箱大小(定义了特征计算前的灰度级数量,测试了12 HU和25 HU)。每个病灶的每种图像(原始/扰动)均以四种参数组合(r1b12, r1b25, r3b12, r3b25)分别计算特征,共计分析了91个不同的三维特征。
3. 精确特征识别分析: 这是研究的核心分析步骤,旨在量化特征的稳健性。 * 可重复性分析:在四种参数组合下,分别计算每个特征在原始图像和其对应的扰动图像之间的一致性。使用基于单次测量、绝对一致性的双向混合效应模型的组内相关系数及其95%置信区间下限来衡量。 * 可再现性分析:分别评估特征对计算参数变化的稳定性。包括:a) 对内核半径的再现性:固定分箱大小(12 HU或25 HU),比较不同内核半径(1毫米 vs 3毫米)计算出的特征值。b) 对分箱大小的再现性:固定内核半径(1毫米或3毫米),比较不同分箱大小(12 HU vs 25 HU)计算出的特征值。这里使用基于单次测量、一致性的双向混合效应模型的ICC来衡量。 * 精确特征筛选:将以上三项实验(一次可重复性、两次可再现性)的结果综合。一个特征被认定为“精确”的条件是,在这三项实验中,其ICC的95%置信区间下限均不低于0.50。该阈值旨在剔除不稳健的特征,同时保留具有中等以上精度、可能具有信息量的特征。所有分析均在全体病灶、以及按部位(肝/肺)分开的亚组中进行。
4. 影像栖息地计算与稳定性评估: 使用高斯混合模型这一无监督聚类算法来计算肿瘤内部的栖息地。对于每个病灶,分别使用两组特征进行四次计算:一组是筛选出的“精确特征”子集,另一组是“所有计算的特征”(非精确特征)。在聚类前,先使用斯皮尔曼等级相关系数剔除了高度相关的冗余特征。栖息地的稳定性通过计算原始图像和其对应扰动图像所生成的栖息地图之间的戴斯相似系数来评估。DSC值越高,表明栖息地的计算受图像微小变化的影响越小,稳定性越好。
5. 探索性病例研究(生物学相关性验证): 在一个独立的13名患者队列中,研究者获取了同一患者的CT、多参数MRI(包括解剖、扩散加权和灌注MRI)以及苏木精-伊红染色的数字化活检图像。他们独立地在CT和mpMRI图像上计算栖息地,并试图将这些影像学上定义的区域与组织病理学观察到的肿瘤细胞密度、血管化、坏死、纤维化等异质性模式进行定量和定性关联分析,以探索CT栖息地是否具有生物学意义。
四、 主要研究结果
本研究获得了多项关键且相互关联的结果,逐步推进并最终支撑了核心结论。
1. 三维影像组学特征的稳健性普遍不佳,且受参数影响显著: 总体而言,三维CT影像组学特征表现出较差的可重复性(ICC LCL中位数0.442)以及对内核半径变化的可再现性(ICC LCL中位数0.440),但对分箱大小变化的可再现性极佳(ICC LCL中位数0.929)。这表明,特征值对计算时考虑的空间邻域范围(内核半径)非常敏感,而对图像的灰度离散化程度(分箱大小)相对稳健。这一发现强调了在报告和比较影像组学研究时,必须详细说明计算参数,否则结果可能因参数选择不同而产生巨大差异,影响研究的可复现性和可比性。
2. 病灶部位影响特征精确性,原发肿瘤类型不影响: 分析发现,肝脏和肺部病灶的精确特征集存在差异。例如,在肺部病灶中,灰度共生矩阵和灰度游程矩阵类特征的可重复性和可再现性更好。然而,不同原发肿瘤类型(如结直肠癌、肺癌等)之间,特征的稳健性没有显著差异。这提示,在构建通用的影像组学模型时,必须考虑病灶所在的解剖部位(如肝 vs 肺),因为其固有的图像对比度噪声比等特性会影响特征的稳健性。
3. 成功识别出针对不同部位的“精确”特征子集: 通过严格的筛选标准,研究分别确定了用于肝脏和肺部病灶的精确三维影像组学特征集,各包含26个特征。这两个特征集有重叠但并非完全相同,验证了上述关于部位差异性的发现。例如,对于肝脏病灶,筛选出的精确特征更多来自一阶特征、灰度依赖矩阵和灰度游程矩阵;而对于肺部病灶,则包含了更多来自灰度共生矩阵和灰度大小区域矩阵的精确特征。
4. 使用精确特征能显著提升肿瘤栖息地计算的稳定性: 这是验证筛选方法有效性的关键一步。结果显示,无论是对于肺部还是肝脏病灶,使用精确特征子集计算出的栖息地,其稳定性(DSC值)均显著高于使用全部特征计算出的栖息地。具体数据为:肺部病灶栖息地DSC中位数从0.532提升至0.601;肝脏病灶从0.587提升至0.651。统计检验显示差异具有高度显著性。这意味着,基于精确特征计算出的肿瘤亚区划分,在面对图像采集或预处理中的微小波动时,结果更加可靠和一致,为后续的生物学解读和临床应用奠定了基础。
5. CT栖息地与多模态影像及组织学存在关联: 在探索性病例研究中,研究者观察到CT图像计算出的栖息地与多参数MRI计算出的栖息地以及组织病理学切片所见的肿瘤异质性区域,在数量和空间分布上存在定性和定量的相关性。例如,影像学上不同的栖息地可能对应着不同的肿瘤细胞密度、血管化程度,或坏死/纤维化区域。尽管样本量有限,但这初步证明了CT栖息地成像具有捕捉肿瘤内在生物学异质性的潜力。
五、 研究结论与意义
本研究系统性地评估并识别了用于计算肝脏和肺部癌症CT肿瘤栖息地的精确三维影像组学特征。通过结合可重复性和可再现性分析,研究筛选出的特征子集能够通过高斯混合模型等无监督聚类方法,实现更稳定的瘤内栖息地划分。探索性分析进一步表明,这些CT定义的栖息地与多参数MRI特征及组织学发现的肿瘤异质性模式相关,可能反映了诸如细胞密度、血管化和坏死等有生物学意义的肿瘤表型。
该研究的科学价值在于:首次全面评估了三维CT影像组学特征在栖息地计算背景下对关键计算参数的稳健性,填补了该领域的知识空白。其实用价值在于:为未来基于CT的肿瘤异质性无创评估研究提供了特征筛选的方法学框架和具体的精确特征列表,有助于提高后续研究的可重复性和可靠性。通过使用更稳健的特征,可以构建出更可靠的肿瘤“地图”,从而在精准医疗时代,潜在地用于识别治疗耐药区域以优化治疗方案,以及在疾病进展过程中纵向、重复地监测肿瘤演变。
六、 研究亮点
七、 其他有价值的内容
研究明确指出了其局限性,包括:未考虑小波或拉普拉斯高斯等卷积滤波器特征;未评估半自动分割对特征精确性的影响;所有分割由单一位放射科医生完成可能引入偏倚;未评估不同扫描仪间的可再现性;以及精确性分析仅限于CT数据。这些坦诚的说明为未来研究指明了方向,例如需要评估其他成像模态(如MRI、PET)的稳健性,以及研究不同模态成像表型的重叠程度。此外,研究中开发的代码已公开,有利于其他研究者验证和拓展本研究工作。