通过级联扩散模型从RNA测序数据生成肿瘤的合成全切片图像

根据RNA数据生成的组织学切片图像

基于级联扩散模型从RNA测序数据生成肿瘤的合成全切片图像

近期发表在Nature Biomedical Engineering上的一篇题为”Generation of Synthetic Whole-Slide Image Tiles of Tumours from RNA-Sequencing Data via Cascaded Diffusion Models”的研究,引起了广泛关注。这项研究由来自斯坦福大学、根特大学、阿贡国家实验室等多家机构的学者共同完成,旨在解决癌症数据不足的问题,从而提升机器学习模型在癌症检测中的表现。本文的作者包括Francisco Carrillo-Perez, Marija Pizurica, Yuanning Zheng, Tarak Nath Nandi, Ravi Madduri, Jeanne Shen和Olivier Gevaert。

研究背景和动机

癌症是全球范围内的主要死亡原因之一,其次是心血管疾病。在临床环境中,医生通常通过多个筛查手段来诊断癌症,包括视觉检查数字化的组织切片或患者基因表达的特异性上调或下调。然而,这些筛查手段由于费用或后勤限制,往往并不会在同一患者身上全面应用。癌症是一种多尺度、多因素的疾病,其效应可以在多个层级得以体现。肿瘤细胞和肿瘤微环境中细胞的基因变异会导致功能变化,从而影响它们的细胞生理。因此,缺乏所有筛查手段会丢失可能导致早期检测的重要信息。

近年来,机器学习,特别是深度学习(Deep Learning, DL),在癌症检测和分类方面显示出了巨大潜力。通过使用不同的多模态数据,例如RNA测序(RNA-seq)、全切片成像(WSI)、微小RNA测序(miRNA-seq)或DNA甲基化数据,许多有前景的临床决策支持系统已经被开发出来。然而,癌症数据存在两个问题:首先,DL模型以数据为基础,需要大量数据进行适当的训练;其次,即使在多模态环境下,生物数据类型的组合已经证明在癌症检测和预后中表现出更高的优越性,但大部分现有数据集通常是不完整的,缺少某些模态。

研究内容

这项研究通过使用生成性对抗网络(GAN)和变分自编码器(VAE)等生成模型,提出一种基于级联扩散模型的方法来解决上述问题。研究展示了在肿瘤组织中RNA测序数据的潜在表示下,级联扩散模型可以用于合成具有现实感的全切片图像砖块。

研究主要包含以下几部分流程:

a) 研究流程详述

  1. 数据预处理与获取:研究从TCGA项目数据库获取数据,该数据库包含RNA-seq及WSI配对样本。RNA-seq数据下载后进行前处理,包括对原始测序读数进行对齐和定量,最终得到17655个基因的表达数据。这些数据经过log变换和Z-score标准化。

  2. Beta-VAE生成多癌种潜在嵌入表示:选择12种癌症类型用于训练Beta-VAE模型,生成RNA-seq数据的低维潜在表示。Beta-VAE的编码器和解码器分别由两个隐藏层组成,潜在空间的维度为200个特征。通过均方误差(MSE)和Adam优化器训练250个epochs,最终获得的潜在表示可以准确重构RNA-seq数据。

  3. 基于级联扩散模型的RNA-CDM生成多癌种的RNA-to-Image合成:级联扩散模型包括一个作为RNA-to-Image模型的低分辨率扩散模型(64×64像素)和一个超分辨率模型(256×256像素),利用Beta-VAE模型生成的潜在表示进行条件训练。在训练过程中,逐步对图像实施噪声,并学习如何去噪,这样在给定RNA-seq潜在编码之后,模型能够生成高分辨率的合成切片图像。

  4. 模型训练与评价:使用HoverNet对真实和合成图像中的细胞类型进行分类和分割,评估生成图像的质量。进一步通过统一流形近似和投影(UMAP)算法来展示不同癌症组织的重构RNA-seq数据,验证模型的泛化能力。

b) 研究主要结果

研究通过比较HoverNet在真实和合成图像中检测细胞的分布,验证了生成图像的真实性。在五种癌症类型(肺腺癌、肾癌、宫颈鳞癌、结肠癌和胶质母细胞瘤)中,真实和合成图像中的细胞检测结果相似。进一步通过定量分析显示,生成图像能够保持真实数据中的细胞形态和特定细胞比例,甚至在RNA-seq数据中基因表达标志物的变化会影响相应细胞类型的出现频率。

此研究还展示了基于合成数据进行预训练可以提升机器学习模型在生物医学分类任务中的表现。通过替换真实数据部分训练集的实验,证明合成数据可以准确替代真实数据,且不会影响分类任务的性能。进一步利用所有合成数据进行模型预训练,然后在少量真实样本上微调,验证了这种预训练策略可以显著提高分类模型的准确性和F1分数。

c) 研究结论和价值

这项研究提出的RNA-CDM模型不仅能够缓解数据稀缺问题,还能通过生成逼真的合成切片图像加速机器学习模型的开发和性能提升。 RNA-CDM 的多癌种RNA-to-Image合成方法不仅可以在数据增强中发挥实用作用,还可以用于识别目前未被人眼识别出的与临床相关的分子生物学状态相关的新形态特征。

d) 研究亮点

  1. 方法创新:首次提出利用级联扩散模型进行RNA-to-Image合成,并使用单一架构生成多种癌症类型的组织切片图像。这相较于以往需要为每种癌症类型单独训练模型的方法更为高效。

  2. 应用前景广阔:合成数据不仅可以用于数据的增强,还可以用于机器学习模型的预训练,从而有效提升实际任务的表现。

e) 其他有价值信息

未来的研究可以结合空间转录组学技术,生成本地RNA表达的基准数据,进一步提高模型的精确度。此外,未来的研究还应致力于发展创新的计算策略,以处理更高分辨率或整个切片的生成任务。这些进步将进一步提升RNA-CDM模型在癌症检测和分类中的应用价值。