基于单细胞多组学数据集的拷贝数变异推断工具基准测试

一、研究背景及意义

在肿瘤学和基因组研究领域,染色体拷贝数异常(Copy Number Alterations, CNAs)是导致癌症发生与进展的关键遗传变异类型。CNAs不仅决定了肿瘤的异质性,而且对早期肿瘤检测、肿瘤亚克隆(subclone)演化分析、耐药机制研究等具有重要意义。传统的检测拷贝数变异的方法主要依赖单细胞DNA测序(scDNA-seq),虽分辨率高,但受限于高昂成本及测序覆盖度低,难以在大规模、通量高的实际应用中广泛开展。

随着单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术的普及与数据积累,研究者发现,基于scRNA-seq数据在一定条件下也能够反推出潜在的基因组拷贝数变化,这大大拓展了利用已有转录组数据挖掘基因组结构变异的可能性。因此,近年来涌现出多个针对scRNA-seq数据推断CNAs的计算工具,如inferCNV、CopyKAT、SCEVAN、Numbat及CASPER等。这些工具根据表达水平、等位基因频率等信号,通过不同算法推断肿瘤细胞的CNAs特征。

然而,因其算法原理、参数设定、输入需求、适用场景等多有差异,目前尚无独立、系统的基准评测以横向比较各工具的性能、优劣及应用建议,导致许多后续肿瘤异质性或单细胞空间转录组学研究在工具选择和解释结果时面临难题。因此,系统性地利用真实配对的单细胞DNA/RNA测序多组学数据,对现有主要工具进行全面、客观的基准比较,对于推动该领域的规范化和提升研究质量具有重要科学和实际价值。

二、论文来源与作者信息

本研究论文题为《benchmarking copy number aberrations inference tools using single-cell multi-omics datasets》,由Minfang Song、Shuai Ma、Gong Wang、Yukun Wang、Zhenzhen Yang、Bin Xie、Tongkun Guo、Xingxu Huang与通讯作者LiyE Zhang等人联合完成。作者主要来自浙江实验室、上海科技大学生命科学与技术学院、上海市临床研究与试验中心、崖州湾国家实验室等单位。论文发表于国际生物信息学权威期刊《Briefings in Bioinformatics》2025年第26卷第2期。

三、研究设计与流程详解

1. 研究总体流程

本项基准研究创新性地利用可同时获取DNA和RNA信息的单细胞多组学数据集(即,同一细胞经scRNA-seq和scDNA-seq平行测序),以scDNA-seq定义的CNAs作为“金标准”对照,系统性评估了目前主流的五款scRNA-seq推断CNAs工具的多维表现,其核心流程包括:

  • 多组学数据集整合及样本筛选;
  • 五款工具(inferCNV、CopyKAT、SCEVAN、Numbat、CASPER)全流程运行及参数调优;
  • 基于“肿瘤/正常细胞分类”、“CNAs剖面推断准确性”、“肿瘤亚克隆识别”、“非恶性细胞非整倍体检测”等任务,定量比较各工具在不同条件下的表现。

2. 数据集来源与处理

研究团队共纳入了自不同公开项目或合作作者获取的真实单细胞多组学数据集,包括:

  • 8例结直肠癌(Colorectal Cancer, CRC)样本(来自 Zhou 等人研究, 共8例);
  • 2例急性淋巴细胞白血病(Acute Lymphoblastic Leukemia, ALL);
  • 1例胶质瘤(Glioma)、1例神经内分泌肿瘤(Neuroendocrine tumor)、1例NPC43细胞系及1例HUVEC细胞系(均来自 Yu 等人或 Cui 等人相关研究);

每个样本均包含同一细胞的配对RNA和DNA测序数据,scDNA-seq结果用于标定真值CNAs,scRNA-seq数据则为各软件输入。具体数据见论文补充表S1。

3. 五款工具及其原理

本次评测工具分两大类:

  • 仅依赖表达矩阵的工具:inferCNV、CopyKAT、SCEVAN。主要思想为肿瘤细胞染色体某区域发生Copy number amplification(增益)或deletion(丢失)时,相应基因的平均表达会上升或下降。算法多采用滑动窗口平均、贝叶斯分段、分割优化等方式获得表达信号的空间变异模式。
  • 结合等位基因/杂合位点信息的工具:Numbat、CASPER。除表达矩阵外,还分析等位基因比率变化(B-allele frequency),能有效识别更细致的CNAs类型如无拷贝数变化下的杂合性缺失(Copy number neutral Loss of Heterozygosity, CNLOH)。Numbat采用基于单倍型的隐马尔可夫模型(HMM),CASPER则为多尺度信号分析框架。

每款软件均遵照其官方文档标准化运行并结合经验参数调优;如inferCNV采用“二次运行法”以优化归一化基线,Numbat和CASPER则需合理选定表达参考细胞类型。

4. 评测流程与指标设定

  • 肿瘤/正常细胞识别准确性

    • 以scDNA-seq聚类注释为真值,计算各工具对同一细胞的分类准确率、F1分数。
    • 检查样本内不同肿瘤纯度(tumor purity,即肿瘤细胞占比)、微环境细胞是否并入、不同测序深度等对算法表现的影响。
  • CNAs剖面推断一致性

    • 将推断出的单细胞(或细胞群体)CNAs分段与真值比对,采用皮尔逊相关系数等指标量化其空间信号一致性。
    • 重点关注算法对大范围和细微变异的检测能力,以及参数/流程(如二次运行)优化效果。
  • 断点与亚克隆结构识别

    • 比较三款具备断点识别功能的工具(inferCNV、SCEVAN、Numbat)对肿瘤主要亚克隆染色体结构断点的检测准确性(F1-score、召回率等)。
    • 肿瘤亚克隆分析采用层次聚类及相似性分析,评估推断亚克隆与DNA真值结构的吻合情况。
  • 非恶性细胞非整倍体检测能力

    • 选取已知非整倍体高发(如纤维母细胞、T/B细胞、内皮细胞)群体,检验各工具对单条染色体增减的检测灵敏性。
  • 计算效率与适用性分析

    • 记录各软件处理千级细胞数据时的内存/计算资源消耗与运行时间,评估大批量实用性。

四、主要结果与数据细节

1. 肿瘤/正常细胞自动分类能力

  • 整体表现:Numbat在多组学数据丰富时,肿瘤/正常识别表现最优;仅有表达矩阵时CopyKAT稳定性和准确性最佳,且对低测序深度较为鲁棒。
  • 不同肿瘤纯度对表现的影响:高肿瘤纯度时,inferCNV易将肿瘤背景误设为表达参考,出现“错误归一”现象(即肿瘤CNAs信号竟被视为“基线”,正常细胞反倒被误划为肿瘤);而SCEVAN则在低肿瘤纯度时表现不佳。引入微环境细胞可显著改善分类与CNAs推断表现。
  • 模拟实验:通过下采样(tumor:normal比例1:100 ~ 100:1模拟)进一步验证各工具表现的鲁棒性,Numbat始终保持高准确性,inferCNV在极端纯度下出现分类方向翻转。

2. CNAs突变剖面推断准确性

  • 基线设定优化:对于inferCNV,采用两步法先识别正常细胞作为参考再进行主分析,显著提升与DNA真值得分段一致性(皮尔逊提升)。
  • 工具间差异:Numbat、CASPER可输出离散整数型CN剖面,更易与DNA数据对比,且整洁明了;其他工具多输出连续型信号,无单一者在全部样本上拔得头筹。整体来看,肿瘤和正常细胞数量平衡时表现最佳。
  • 全断点、异常分段与LOH检测:SCEVAN在亚克隆结构断点检测方面(即识别复杂染色体重排处)灵敏度和F1最佳。Numbat独有的B-allele合并分析,使其对CNLOH检测灵敏但易有误判(如大幅度拷贝增益区域易误报为LOH)。

3. 亚克隆结构推断能力

  • 全部工具在前提下(即肿瘤细胞识别准确时)均能较好重现DNA真值亚克隆空间演化;以脑胶质瘤及CRC案例为例,多数方法推断亚克隆结构与DNA结果高度吻合(ARI>0.8),但某些偏极化样本需合并微环境细胞辅助,SCEVAN与inferCNV表现尤佳。

4. 非恶性细胞非整倍体检测

  • 鉴于非恶性细胞的CNAs通常为单条染色体全增减,各工具在此类低负荷异常的检测一致欠佳,原因包括该类细胞UMI/gene数量远低于肿瘤细胞、表达扰动范围较小,表明领域亟需专为低负荷变异开发的算法。

5. 计算资源与流程实用性

  • CopyKAT与SCEVAN在运行效率上表现最佳,适合普通计算机分析千级细胞数据;Numbat和inferCNV算法复杂度较高,建议千级以上数据用服务器环境。

五、主要结论与应用价值

本研究为scRNA-seq CNAs推断工具的独立系统评测首例,揭示了-tools在不同场景下的优劣势与适用建议。明确提出:

  • 工具选择应与实验条件匹配:含有B-allele数据时首推Numbat+SCEVAN/InferCNV,单表达矩阵建议CopyKAT+SCEVAN/InferCNV组合,敞开尝试多软件有助于交叉验证提升结果可靠性。
  • 优化参数与合理参考设定极为关键:无论InferCNV的二次运行流程,还是Numbat的gamma参数,均需结合样本特征试验多次以获取最优性能。
  • LOH等特殊事件探测结果需谨慎诠释:应结合独立的DNA数据验证。

科学价值体现在:为多样化肿瘤单细胞/空间转录组学研究提供了规范化、实证化的工具选型指南,有助于提升相关领域数据解读的可靠性和一致性。同时对低负荷CNAs异常及低表达分辨能力的研究瓶颈提出了警示,提示后续算法开发需关注检测灵敏度与适用性拓展。

六、研究亮点与创新点

  • 创新性地采用真实“同细胞”多组学数据,最大限度还原了推断工具面对真实生物背景时的表现;
  • 完整覆盖了工具分类性能、断点和亚克隆检测、资源消耗、参数优化等全流程评测任务;
  • 明确揭示不同算法在特定条件下的偏好与陷阱,为空间转录组学等新兴场景下的工具甄别提供了范本。

七、其它重要信息

论文已开源全部分析代码及脚本,便于同行复用/验证,所用数据全部为已公开可获取;研究得到国家自然科学基金、“浙江省领雁计划”、浙江实验室等项目资助。作者团队在国内单细胞多组学及肿瘤异质性分析方面具备领先经验和数据积累,稿件由多家学术研究型机构共同完成。

本研究为scRNA-seq领域拷贝数变异推断技术的发展与应用奠定了重要的实证基础和评价标准,对肿瘤生物信息学等多个前沿领域具有广泛借鉴意义。