分享自:

评估基因扰动响应预测的框架:超越系统变异

期刊:nature biotechnologyDOI:10.1038/s41587-025-02777-8

类型a:学术研究报告

一、主要作者及机构
本研究的通讯作者为Maria Brbić(瑞士洛桑联邦理工学院计算机与通信科学学院、生命科学学院)和Mor Nitzan(以色列耶路撒冷希伯来大学计算机科学与工程学院、物理研究所),其他作者包括Ramon Viñas Torné、Maciej Wiatrak、Zoe Piran等,合作机构涵盖瑞士、英国、以色列等多国高校。研究于2025年7月14日发表在*Nature Biotechnology*期刊,标题为《SYSTEMA: A framework for evaluating genetic perturbation response prediction beyond systematic variation》。

二、学术背景
本研究属于功能基因组学(functional genomics)领域,聚焦于遗传扰动(genetic perturbation)对单细胞转录组影响的预测问题。当前高通量扰动筛选技术(如CRISPR筛选)虽能系统性研究基因扰动效应,但受限于组合复杂性,实验无法覆盖所有可能的扰动。已有计算方法(如CPA、GEARS、scGPT)试图预测未实验验证的扰动效应,但其真实预测能力尚不明确。研究团队发现,现有评估指标易受系统性变异(systematic variation,即由实验设计偏差或混杂因素导致的扰动与对照细胞间的系统性差异)干扰,导致性能被高估。因此,本研究旨在开发新评估框架SYSTEMA,以区分扰动特异性效应与系统性变异,并揭示现有方法的真实预测能力。

三、研究流程与方法
1. 基准测试设计与基线模型构建
- 数据集:整合10个单细胞扰动数据集(如Adamson2016、Norman2019、Replogle2022),涵盖3种技术(CRISPRa/i/ko)、5种细胞系(如K562、RPE1),包含单基因与双基因扰动。
- 基线模型:设计两种非参数基线——”扰动均值”(perturbed mean,所有扰动细胞的平均表达)和”匹配均值”(matching mean,组合扰动的配对基因表达均值)。
- 对比方法:评估3种前沿方法(GEARS、scGPT、CPA)及基线模型在预测未见过扰动时的表现,使用PearsonΔ(所有基因)和PearsonΔ20(前20差异基因)等指标。

  1. 系统性变异量化与分析

    • 定义:通过计算扰动特异性偏移(perturbation-specific shift)与平均扰动效应的余弦相似性,量化数据集中系统性变异程度。
    • 验证:在Adamson(内质网应激相关基因)和Norman(细胞周期相关基因)数据集中,通过基因集富集分析(GSEA)和AUCell评分发现扰动细胞显著富集于特定通路(如应激响应、细胞死亡)。
    • 技术影响:Replogle的RPE1数据集中,46%扰动细胞处于G1期(对照组25%),表明染色体不稳定(chromosomal instability)导致的细胞周期停滞是系统性变异的主要来源。
  2. SYSTEMA框架开发

    • 核心创新:将评估参考点从对照细胞均值改为扰动细胞均值(perturbed centroid),以削弱系统性变异的影响。
    • 新指标
      • 离心精度(centroid accuracy):预测的转录组是否更接近真实扰动中心而非其他扰动中心。
      • 参考不敏感指标:如RMSE,避免依赖对照参考。
    • 应用:重新评估各方法在扰动特异性效应预测上的表现,发现scGPT在部分功能相关基因群(如核糖体蛋白编码基因)的预测中表现突出。
  3. 下游生物学验证

    • 染色体不稳定性预测:在Replogle的K562数据集中,scGPT能区分高/低染色体不稳定性(CIN)扰动(AUC=0.73),表明其部分捕捉了生物学相关效应。

四、主要结果与逻辑链条
1. 基线模型表现优异:扰动均值在多数数据集的PearsonΔ指标上优于或匹配前沿方法(如Adamson数据集PearsonΔ=0.70 vs. GEARS的0.65),提示现有指标易受系统性变异干扰。
2. 系统性变异普遍存在:所有数据集均检测到不同程度的系统性变异(余弦相似性0.2–0.7),其中目标基因功能集中的数据集(如Norman)变异程度最高。
3. SYSTEMA揭示真实性能:使用扰动中心参考后,各方法PearsonΔ得分显著下降(如Norman数据集中GEARS从0.65降至0.13),表明预测未见过扰动的实际难度远超传统指标所示。
4. scGPT的生物学意义:尽管整体性能有限,scGPT能部分预测功能相关基因群(如翻译相关基因)的扰动效应,归因于其预训练策略对生物学先验的编码。

五、结论与价值
1. 科学价值
- 揭示了现有扰动预测方法的局限性,提出系统性变异是性能评估的主要干扰因素。
- 开发的SYSTEMA框架为未来研究提供了更鲁棒的评估标准,强调扰动特异性效应的重要性。
2. 应用价值
- 推动功能基因组学中计算模型的优化设计,尤其适用于药物靶点发现和细胞工程。
- 提出需构建更异质化的扰动基因面板以减少系统性偏差。

六、研究亮点
1. 方法学创新:首次提出量化系统性变异的指标,并开发参考点可调的评估框架。
2. 颠覆性发现:证明前沿方法的高性能可能源于对系统性变异的过度拟合,而非真实生物学效应预测。
3. 跨技术验证:整合CRISPRa/i/ko多技术数据,增强结论普适性。

七、其他价值
研究开源了SYSTEMA代码(GitHub),并建议未来工作结合空间转录组等新兴技术,从多模态角度评估扰动效应。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com