分享自:

利用基因组规模Perturb-seq技术绘制信息丰富的基因型-表型图谱

期刊:CellDOI:10.1016/j.cell.2022.05.013

这篇文档属于类型a,是一篇关于单细胞CRISPR筛选技术的原创性研究论文。以下为针对该研究的学术报告:


研究团队与发表信息
本研究由Joseph M. Replogle、Reuben A. Saunders等来自美国加州大学旧金山分校、麻省理工学院怀特黑德生物医学研究所等机构的团队完成,于2022年7月7日发表于《Cell》期刊(Volume 185, Issue 12),标题为《Mapping information-rich genotype-phenotype landscapes with genome-scale Perturb-seq》。


学术背景
研究领域为功能基因组学与单细胞转录组学的交叉领域。传统遗传学方法(如正向遗传学筛选和反向遗传学筛选)存在局限性:前者依赖低维表型(如细胞生长),后者难以规模化。Perturb-seq技术结合CRISPR基因扰动与单细胞RNA测序(single-cell RNA sequencing, scRNA-seq),可同时捕获基因扰动和高维转录组表型,但此前仅用于小规模靶向基因研究。本研究首次实现了全基因组规模的Perturb-seq筛选,旨在系统性解析基因型-表型关系,并探索复杂细胞表型(如非整倍体、线粒体应激反应)的遗传调控机制。


研究流程与方法
1. 实验设计与文库构建
- CRISPRi文库设计:采用双sgRNA(single-guide RNA)靶向每个基因的启动子区,增强敲低效率。文库覆盖K562慢性髓系白血病细胞和RPE1视网膜色素上皮细胞中所有表达基因(K562:9,866基因;RPE1:2,057基因)。
- 创新性优化:通过生长筛选富集对细胞存活关键的sgRNA,并在合成中过表达这些序列,避免文库偏差。

  1. 大规模Perturb-seq实验

    • 细胞处理:通过慢病毒感染将CRISPRi文库导入细胞,分别在转导后6-8天收集样本。
    • 单细胞测序:使用10x Genomics平台进行scRNA-seq,捕获sgRNA和转录组信息。最终获得>250万个高质量单细胞数据,中位覆盖度>100细胞/扰动。
    • 质量控制:通过内部对照(非靶向sgRNA)校正批次效应,并排除多基因扰动的细胞。
  2. 数据分析流程

    • 表型检测
      • 全局转录变化:采用置换能量距离检验(permuted energy distance test)评估扰动细胞的转录状态偏移。
      • 差异表达基因(DEGs):使用Anderson-Darling检验(非参数方法)识别DEGs,避免对数据分布的假设。
    • 功能注释
      • 通过CORUM蛋白复合物数据库和STRING蛋白互作网络验证基因功能关联性。
      • 采用最小畸变嵌入(minimum distortion embedding)可视化基因扰动聚类。
    • 复合表型分析:开发新算法量化染色体不稳定性(chromosomal instability, CIN)和线粒体基因组表达模式。

主要结果
1. 基因功能预测与验证
- 30.5%的基因扰动导致显著转录表型(>10 DEGs),其中86.6%必需基因的扰动表型与生长缺陷相关。
- 发现多个未注释基因(如CCDC86、ZNF236、SPATA5L1)参与核糖体生物发生,通过28S/18S rRNA比例实验验证其功能。

  1. 整合子复合体(Integrator complex)新模块的发现

    • 传统认为Integrator由14个核心亚基组成,但本研究通过转录表型聚类发现其分为三个功能模块:
      • 剪切模块(INTS3/4/9/11):调控snRNA加工。
      • 骨架模块(INTS1/2/5/7/8):维持结构稳定性。
      • 新模块(INTS10/13/14与C7orf26):生化实验证实C7orf26(更名为INTS15)与该模块结合,但不影响snRNA加工,提示其独立功能。
  2. 非整倍体的遗传驱动因素

    • 通过单细胞核型推断(inferCNV算法)发现,扰动纺锤体检查点基因(如TTK)导致急性染色体非整倍性。
    • p53阳性RPE1细胞中,非整倍体触发G1期阻滞和整合应激反应(integrated stress response, ISR),而p53缺陷的K562细胞无此表型,揭示p53依赖的监控机制。
  3. 线粒体应激的特异性调控

    • 核编码线粒体基因的扰动引发两种响应:
      • 核转录应答:均激活ISR,无应激类型特异性。
      • 线粒体基因组应答:不同应激(如复合物I、IV缺陷)导致线粒体编码基因(如MT-ND4、MT-ATP6)表达模式显著差异,提示存在局部调控机制。
    • 预测并验证TMEM242为ATP合酶组装新因子(与癌症依赖图谱数据一致)。

结论与意义
1. 科学价值
- 构建了首个全基因组规模的基因型-多维度表型图谱,为系统遗传学提供新范式。
- 揭示了Integrator复合体的模块化功能和非经典调控机制,拓展了对转录终止的理解。
- 阐明了非整倍体与应激反应的因果关系,为癌症基因组不稳定性研究提供新视角。

  1. 技术革新
    • 开发了可扩展的CRISPRi Perturb-seq流程,支持低成本Ultima Genomics测序平台应用。
    • 建立了单细胞水平复合表型(如剪接效率、转座子表达)的分析框架。

研究亮点
1. 规模与系统性:首次实现全基因组覆盖的单细胞CRISPR筛选,数据量(>250万细胞)和基因覆盖度(>10,000基因)远超既往研究。
2. 多维表型解析:超越差异表达分析,整合剪接、分化、染色体拷贝数等复合表型,揭示基因功能的上下文依赖性。
3. 资源开放性:数据通过交互式网站(http://gwps.wi.mit.edu)公开,支持个性化挖掘。

局限性
1. 多数基因仅用单sgRNA靶向,可能遗漏部分表型。
2. scRNA-seq仅捕获转录组,未来可结合多组学(如蛋白、表观)进一步丰富表型维度。


此研究为功能基因组学领域树立了新标杆,其方法论和数据集将推动从基础机制到疾病治疗的转化研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com