利用可扩展单细胞扰动筛选系统重建分子通路特征

在功能基因组学领域,研究人员一直致力于通过观测数据预测因果调控关系。然而,尽管现代技术能够测量多种分子模态,从观测数据中推断出因果调控关系仍然具有挑战性。特别是,信号通路调控因子的下游效应物(effectors)的识别和量化是基因组学研究的重点之一。CRISPR等基因组编辑工具的出现为大规模并行筛选提供了可能,尤其是与单细胞RNA测序(scRNA-seq)结合的Perturb-seq技术,能够通过遗传扰动实现因果推断。然而,现有的Perturb-seq应用主要集中在静止细胞中,可能无法准确描述依赖于上下文的基因功能。

为了解决这一问题,研究人员开发了一种可扩展的Perturb-seq工作流程,结合了组合索引和下一代测序技术,系统地识别了不同生物背景下信号调控因子的靶标。通过这一方法,研究人员不仅能够量化扰动效率的异质性,还能够推断出在体内和原位样本中信号通路的激活变化。

论文来源

这篇论文由Longda Jiang、Carol Dalgarno、Efthymia Papalexi、Isabella Mascio、Hans-Hermann Wessels、Huiyoung Yun、Nika Iremadze、Gila Lithwick-Yanai、Doron Lipson和Rahul Satija等人共同撰写。作者们来自多个研究机构,包括New York Genome Center、New York University的基因组与系统生物学中心以及Ultima Genomics。该论文于2025年3月发表在《Nature Cell Biology》期刊上,DOI为10.1038/s41556-025-01622-z。

研究流程与结果

研究流程

  1. 实验设计与细胞培养
    研究人员选择了六种不同来源的癌细胞系(A549、MCF7、HT29、HAP1、BXPC3和K562),并在这些细胞中表达了CRISPRi dCas9-KRAB-MeCP2盒。为了研究不同信号通路的活动,研究人员对每种细胞系进行了五种不同的刺激:IFN-β、IFNγ、TGF-β、TNF和胰岛素。每种信号通路选择了44到61个已知调控因子,并为每个基因设计了三个独立的单导RNA(sgRNA)。

  2. Perturb-seq实验
    研究人员使用Parse Biosciences的EverCode Whole Transcriptome Mega Kit进行单细胞RNA测序,并结合组合索引技术提高了实验的可扩展性和成本效益。在实验中,研究人员对2.6百万个细胞进行了测序,并使用组合解析条形码(Parse barcodes)来识别细胞类型和刺激条件,sgRNA条形码用于识别遗传扰动。

  3. 数据分析与算法开发
    为了处理Perturb-seq数据中的技术异质性和生物异质性,研究人员开发了一个名为MixScale的计算框架。MixScale通过估计每个细胞的扰动强度,优化了差异表达基因(DEG)的识别。MixScale首先估计每个细胞的“扰动向量”,然后通过标量投影量化每个细胞的扰动程度。此外,研究人员还引入了加权多变量回归(WMVReg)方法,进一步提高了DEG识别的鲁棒性。

  4. 信号通路特征的提取与验证
    研究人员通过多CCA(MulticCA)分解方法,识别了在不同细胞系和信号通路中保守的扰动程序。这些程序能够反映特定调控因子的下游基因表达变化。研究人员还通过外部数据集验证了这些信号通路特征,包括IFNβ刺激的单核细胞、IFNγ刺激的PBMCs以及TGFβ刺激的卵巢癌细胞系。

主要结果

  1. MixScale框架的有效性
    MixScale能够量化CRISPRi扰动数据的梯度响应,尤其是在细胞扰动效率存在异质性的情况下。通过MixScale,研究人员能够更准确地识别DEG,并且在低细胞数情况下仍能保持较高的统计功效。

  2. 信号通路特征的保守性与特异性
    研究人员发现,不同信号通路的调控因子在相同通路内的下游基因靶标存在高度重叠,但在不同细胞系中表现出明显的特异性。例如,IFNγ和IFNβ通路的响应在多种细胞系中较为保守,而TGFβ和胰岛素信号通路则表现出显著的细胞类型特异性。

  3. 信号通路特征的应用
    研究人员利用提取的信号通路特征,成功推断出了COVID-19患者中IFNβ信号的激活情况,并识别了克罗恩病(Crohn’s disease)中TNF信号通路在非免疫细胞中的激活。此外,研究人员还通过空间转录组学技术,在小鼠结肠损伤模型中识别了TGFβ信号通路的空间激活模式。

结论与意义

该研究通过开发可扩展的Perturb-seq工作流程和MixScale计算框架,系统地重建了多种信号通路的分子特征。这些特征不仅扩展了现有的基因集,还能够准确地推断出在不同生物背景下的信号通路激活情况。该研究为理解信号通路的调控机制提供了新的工具和方法,并为未来的功能基因组学研究奠定了基础。

研究亮点

  1. 可扩展的Perturb-seq工作流程:通过结合组合索引和下一代测序技术,研究人员能够在大规模实验中系统地识别信号调控因子的靶标。
  2. MixScale计算框架:MixScale能够量化细胞扰动效率的异质性,并优化了DEG的识别,提高了统计功效。
  3. 信号通路特征的保守性与特异性:研究人员识别了在不同细胞系和信号通路中保守的扰动程序,并验证了这些特征在多种生物背景下的应用价值。
  4. 应用前景:该研究为理解疾病中的信号通路激活提供了新的工具,特别是在COVID-19和克罗恩病等疾病中的应用展示了其广泛的应用潜力。

其他有价值的信息

研究人员还指出,未来的研究可以将这一框架应用于其他生物过程和细胞类型,并结合染色质可及性和蛋白质水平等多模态数据,进一步丰富对信号转导机制的理解。此外,组合扰动技术的应用也将为探索通路内和跨通路的调控因子相互作用提供新的视角。

这篇论文通过创新的实验设计和计算方法,为功能基因组学领域提供了重要的工具和见解,展示了Perturb-seq技术在理解复杂生物系统中的潜力。