单细胞基因组学图谱级数据整合的基准测试分析
本研究报告由Malte D. Luecken(第一作者)及其来自Helmholtz Zentrum München、University of Münster、Technical University of Munich (TUM)、Heidelberg University Hospital、Ludwig Maximilian University of Munich等多家德国研究机构的合作者共同完成。该研究以“Benchmarking atlas-level data integration in single-cell genomics”为题,于2022年1月发表在 Nature Methods 期刊上。
一、 研究的学术背景与目标
本研究属于单细胞组学(single-cell omics)数据分析方法学领域。随着单细胞技术(如单细胞RNA测序,scRNA-seq)的快速发展,大型研究计划如人类细胞图谱(Human Cell Atlas)产生了海量数据。这些数据通常来自多个实验室、不同的实验条件、多样的技术平台和个体样本,形成了复杂且嵌套的批次效应(batch effects)。批次效应是指由非生物因素(如测序深度、试剂批次、实验操作人员、样本处理时间等)引起的技术性变异,它会掩盖真实的生物学信号,从而阻碍了对不同来源数据进行联合分析的能力。因此,开发能够有效去除批次效应、同时保留生物学变异的数据整合方法,已成为单细胞数据分析领域的一项重大挑战。截至2020年11月,已有至少49种针对scRNA-seq的数据整合方法被开发出来。然而,在缺乏客观、全面的评估标准下,方法的选择往往依赖于主观判断或基于有限场景的简单基准测试。
以往的研究主要关注于相对简单的批次效应去除任务,并且未对不同方法的输出形式(如校正后的表达矩阵、联合嵌入或整合图)进行全面比较。此外,这些基准测试大多没有涉及具有高度复杂性(如组织或器官图谱级别)的整合任务。因此,研究人员和从业者亟需一个系统的、无偏的指南,来帮助他们在面对不同复杂度的数据分析任务时,选择最合适的数据整合方法。
本研究的核心目标是:对当前流行的单细胞数据整合方法进行全面、系统的基准测试,重点评估它们在处理复杂的、图谱级别的整合任务时的性能。研究旨在回答以下几个关键问题:1) 不同方法在去除批次效应和保留生物学变异(包括已知细胞类型信息和更细微的细胞状态、轨迹等)之间的权衡如何?2) 数据预处理(如选择高变异基因、数据缩放)如何影响整合效果?3) 这些方法在不同数据模态(如scRNA-seq与单细胞ATAC测序,scATAC-seq)和不同特征空间下的表现如何?4) 方法的可用性和计算可扩展性如何?最终,研究团队希望为领域提供一套可重复的基准测试流程和评估指标,以指导方法的选择和未来方法的开发。
二、 详细的工作流程
本研究设计并执行了一个系统、严谨的基准测试流程,称为“单细胞整合基准测试(Single-Cell Integration Benchmarking, scIB)”。整个工作流程主要包括以下几个步骤:
整合任务构建与数据准备:
- 任务设计:研究团队精心设计了13个具有不同挑战性的整合任务,包括2个模拟任务、5个scRNA-seq真实数据任务和6个scATAC-seq真实数据任务。这些任务涵盖了从简单(如经典的胰腺数据集,9个批次,~1.6万细胞)到极其复杂(如小鼠大脑数据集,最多达4个批次,近100万细胞)的各种场景。挑战包括:不同实验室和协议带来的嵌套批次效应、物种差异(人鼠混合)、样本空间位置差异、单细胞与单核测序数据差异、以及scATAC-seq数据的不同特征空间(峰、窗口、基因活性)等。
- 数据预处理:为确保公平比较,所有真实数据集均按照已发表的最佳实践进行独立的质量控制和归一化处理。scRNA-seq数据使用scran进行池化归一化,并进行log(1+x)转换。细胞类型注释通过匹配标记基因集和手动聚类进行统一和验证。对于scATAC-seq数据,研究将其预处理为三种特征表示:基因活性(gene activity)、峰(peaks)和基因组窗口(windows)。模拟数据则使用splatter包生成,以便在已知真实情况(ground truth)下评估方法性能。
整合方法与预处理组合的选择与运行:
- 方法选择:研究团队从众多方法中选取了16种流行或具有代表性的数据整合工具进行测试。这些方法包括:基于互最近邻的MNN和FastMNN;基于锚点的Seurat V3(CCA和RPCA);基于深度生成模型的scVI及其扩展scanVI;基于大规模拼接的Scanorama;基于图算法的BBKNN和Conos;基于非负矩阵分解的LIGER;基于深度多任务网络的SAUCIE;基于线性模型的Harmony和Combat;专注于聚类时去除批次效应的DESC;以及先前由作者团队开发的扰动建模工具trVAE和scGen。
- 预处理变量:考虑到缺乏标准化的预处理流程,研究将预处理选择也纳入基准测试。每个方法都在四种预处理组合下运行:是否选择高变异基因(HVG,是/否)以及是否进行数据缩放(scaling,是/否)。对于某些方法(如liger、scVI),缩放不适用;对于另一些方法(如scGen、scanVI),需要细胞类型标签作为额外输入。
- 运行与输出:最终,研究团队对68种方法-预处理组合进行了测试,在13个任务上共尝试了590次整合运行。所有运行均在统一的计算环境下进行(CPU,时间限制4天,内存充足),并记录了运行时间和峰值内存使用。对于每种方法,其所有可能的输出(如校正后的基因矩阵、联合嵌入、整合图)都被视为独立的“运行”进行评估。
评估指标体系的开发与应用:
- 指标设计:为了全面评估整合性能,研究团队开发并应用了一套包含14项指标的评估体系。这些指标被分为两大类:批次效应去除 和 生物学变异保留。后者进一步细分为基于标签的保留(依赖于先验的细胞类型注释)和不基于标签的保留(评估更细微的生物学信号)。
- 具体指标:
- 批次去除指标:包括K近邻批次效应检验(kBET)、图连接性(graph connectivity)、批次平均轮廓宽度(batch ASW)、图局部逆辛普森指数(graph iLISI,用于评估批次混合度)以及主成分回归(PCR batch)。
- 生物学保留指标:
- *基于标签*:调整兰德指数(ARI)、归一化互信息(NMI)、细胞类型平均轮廓宽度(cell-type ASW)、图局部辛普森指数(graph cLISI,用于评估细胞类型分离度)、以及两个新开发的孤立标签分数(评估只出现在少数批次中的稀有细胞类型的整合效果)。
- *不基于标签*:细胞周期变异保留、高变异基因重叠度(评估整合前后各批次生物信息的一致性)、以及轨迹保留(评估细胞发育或分化轨迹在整合后的保持情况)。后三项是该研究引入的新颖评估维度。
- 统一评估框架:一个关键挑战是不同方法的输出格式多样(矩阵、嵌入、图)。为此,研究团队扩展了kBET和LISI等指标,使其能够一致地应用于所有类型的输出(详见补充说明)。这确保了跨方法比较的公平性。
- 综合评分:对于每次整合运行,计算其批次去除和生物学保留两个类别的平均分,然后以40%(批次去除)和60%(生物学保留) 的加权比例计算一个总体得分。这个权重分配反映了在单细胞分析中,保留真实的生物学信号通常比完全抹平批次差异更为重要。
可重复性与资源提供:
- 研究团队将整个基准测试流程实现为一个可重复的 Snakemake 工作流。
- 所有评估指标、方法封装和预处理功能都集成在一个开源的 Python模块(scib) 中。
- 完整的分析结果和可视化通过一个交互式网站公开。
三、 主要研究结果
性能排名与任务复杂性依赖:
- 在所有scRNA-seq和模拟任务上,综合考虑最佳预处理组合后,Scanorama(嵌入输出)、scVI(嵌入输出)和FastMNN(嵌入输出) 表现最为出色。然而,方法的性能高度依赖于任务的复杂性。
- 对于简单任务(如胰腺数据集,批次和生物学信号区分明显),Harmony 和 Seurat V3 表现良好,这与之前的基准测试结论一致。
- 对于复杂的真实数据任务(如包含嵌套批次效应、稀有细胞类型、连续细胞状态的组织图谱),Scanorama 和 scVI 的表现尤为突出。它们能更好地平衡批次去除与生物学保留。
- 使用细胞类型标签的方法:scanVI 和 scGen 在几乎所有任务中都表现出色,特别是当生物学变异被编码在所提供的标签中时。它们能够整合跨物种等强批次效应,同时保留精细的细胞状态差异。但若某些生物变异(如空间位置差异)未在标签中体现,这些方法也可能将其作为批次效应去除。
批次去除与生物学保留的权衡:
- 研究清晰地揭示了数据整合中的一个核心权衡(trade-off):更强的批次效应去除往往伴随着更多生物学变异的丢失,反之亦然。
- 倾向于批次去除的方法:如 BBKNN、Seurat V3(尤其是RPCA)、SAUCIE 和 LIGER。这些方法能有效整合强批次效应(如跨物种),但可能过度平滑细胞状态,仅保留宽泛的细胞类型结构。
- 倾向于生物学保留的方法:如 DESC 和 Conos。它们能很好地保持细胞簇的分离,但在批次混合方面表现不佳。
- 达到较好平衡的方法:Scanorama、scVI、FastMNN(基因输出) 以及使用了标签的 scGen 和 scanVI。
预处理的影响:
- 高变异基因选择:在绝大多数(74%)的对比中,使用HVG进行整合的总体表现优于使用全部基因。这尤其提高了批次去除效果(81%对比更优)。但细胞周期和轨迹保留指标倾向于使用全部基因,因为相关基因可能不在HVG列表中。
- 数据缩放:缩放处理显著地将方法性能推向更强的批次去除(79%对比更优)但更弱的生物学保留(72%对比更差)。未缩放的数据在“不基于标签的”生物学保留指标上表现更好。
scATAC-seq数据整合的特殊性:
- 将scRNA-seq上表现良好的方法直接应用于scATAC-seq数据时,多数方法表现不佳,仅有27%的整合结果优于未整合的最佳特征空间,远低于scRNA-seq的85%。
- 特征空间至关重要:
- 基因活性空间表现最差,即使未整合数据也缺乏清晰的细胞类型结构,整合后生物学保留分数很低。
- 峰和窗口是更适合scATAC-seq整合的特征空间,能更好地保留生物学信息。
- 适用于scATAC-seq的方法:在峰/窗口空间,LIGER 和 Harmony 表现最佳。它们都更侧重于批次去除,能较好地混合批次,但LIGER 的批次去除能力更强,而Harmony 在生物学保留上稍好。值得注意的是,Combat 和 BBKNN 在某些任务中也表现尚可,但可能无法完全解决嵌套批次效应或在细胞类型内留下批次结构。
可扩展性与可用性评估:
- 可扩展性:Combat、BBKNN 和 SAUCIE 运行速度最快;scVI、scanVI 和 BBKNN 内存效率最高。深度学习方法scVI/scanVI 的运行时间不随数据集大小线性增长,得益于其训练轮次的自适应启发式设置。MNN 的扩展性最差,而trVAE 和scGen 在大数据集上需要GPU支持。scATAC-seq由于特征数量巨大,对方法的可扩展性提出了严峻挑战,许多方法无法在给定的资源限制下完成大型ATAC任务的整合。
- 可用性:基于代码质量、文档、教程、社区活跃度和论文评估等方面打分,Harmony、Seurat V3 和 BBKNN 对新手最友好。而DESC、scanVI 和 trVAE 在文档或教程方面有所欠缺。
四、 结论与意义
本研究得出了几个核心结论: 1. 没有“一刀切”的最佳方法:数据整合方法的选择应基于具体任务的复杂性。对于简单的批次结构,Harmony等线性方法足够;对于复杂的图谱级数据,应优先考虑Scanorama或scVI;如果拥有可靠的细胞类型注释,scanVI或scGen是强大选择。 2. 预处理是关键:使用HVG通常有益,而数据缩放会偏向于批次去除。用户需根据分析目标(是强调批次混合还是发现细微生物学差异)来决定是否缩放。 3. scATAC-seq整合更具挑战:需要不同于scRNA-seq的方法和评估思路,LIGER 和 Harmony 在峰/窗口空间是目前较好的选择,特征空间的选择比方法选择更重要。 4. 公开透明的基准测试框架:研究提供的scIB Python模块和可重复的Snakemake流程,使研究人员能够轻松地在自己的数据集上测试和比较不同方法,为新方法的开发提供了标准的评估平台。
五、 研究的亮点与创新
- 规模与复杂性空前:这是首次针对单细胞数据整合方法进行的大规模、系统性基准测试,涵盖了超过120万个细胞、23个已发表数据集、13个具有不同挑战维度的整合任务,以及68种方法-预处理组合,远超以往研究。
- 全面且新颖的评估指标体系:不仅包含了标准的聚类和批次混合指标,还创新性地引入了孤立标签评估、细胞周期保留、轨迹保留等“不基于标签”的指标,能够评估方法在保留连续生物学变异和稀有细胞类型方面的能力。
- 统一评估框架:通过扩展kBET和LISI等指标,解决了不同输出格式(图、嵌入、矩阵)无法公平比较的难题,为未来基准测试树立了典范。
- 深入揭示核心权衡:研究清晰地量化并展示了数据整合中“批次去除”与“生物学保留”之间不可调和的权衡关系,并指出不同方法在此光谱上的定位,对指导方法选择和开发具有根本性意义。
- 涵盖多模态数据:首次将scATAC-seq数据整合纳入大规模基准测试,并系统评估了不同特征空间的影响,填补了该领域的空白。
- 注重实用性与可重复性:不仅评估性能,还评估了方法的可用性和计算可扩展性,并提供了完整的开源工具链和交互式结果网站,极大地提升了研究的实用价值和影响力。
六、 其他有价值的内容
研究团队在最后根据所有发现,绘制了一张详细的方法选择指南图。该指南从输入需求、基准测试结果概览、任务具体细节、计算速度、输出类型五个维度,为终端用户提供了清晰的选择路径。例如,如果用户的目标是发现稀有细胞类型和细微生物变异,推荐使用Scanorama;如果需要快速获得结果或处理超大特征空间的数据,BBKNN可能是更实际的选择;如果面对极强的批次效应(如跨物种)且拥有细胞标签,则scanVI和scGen是首选。这份指南将复杂的研究结论转化为了可供实践直接操作的决策树,是本研究的又一重要贡献。