分享自:

单细胞多组学数据整合方法 Multigrate 的设计与应用

期刊:biorxivDOI:10.1101/2022.03.16.484643

学术报告:基于文档内容的总结

作者与机构信息

本文的主要作者包括 Mohammad Lotfollahi, Anastasia Litinetskaya 和 Fabian J. Theis,他们分别隶属于 Helmholtz Center Munich 的 Institute of Computational Biology、Technical University of Munich 的 School of Life Sciences Weihenstephan 以及 Department of Mathematics。本文作为 preprint 发表在 bioRxiv,并参与了 2021 ICML Workshop on Computational Biology 的相关研究讨论。


研究背景与研究目的

近年来,单细胞多模态组学(single-cell multi-omics)技术的快速发展,为理解细胞决策机制提供了一种全面的方法。这些技术能够同时测量单细胞中的多个特征,例如在 CITE-seq 技术中同时测量基因表达(gene expression)和表面蛋白计数(surface protein counts),在 ATAC-seq 技术中同时揭示转录组和染色质开放性。然而,由于多模态数据普遍存在不完整的参考样本、不重叠的特征和数据集之间的批次效应,学习和整合这种数据的挑战性显著。现有的方法大多局限于特定的配对测量技术,缺乏处理和推测(imputation)丢失模态数据的机制,同时在处理非匹配测量的数据集时显得不够鲁棒。

为了解决上述问题,本文提出并验证了一种新的生成性多视角神经网络架构——Multigrate。这种方法旨在构建多模态参考图谱(multimodal reference atlas),可以泛化到多种多模态组学技术,同时具备强大的整合能力,能够接近目前相关领域的最优方法。

研究的目的包括: 1. 集成不同模态的数据,统一多模态数据视图; 2. 处理非配对数据并对缺失模态进行推测; 3. 利用转移学习实现新查询数据的参考映射; 4. 构建健康和疾病细胞的多模态参考图谱,并可扩展性地加入新的数据。


研究流程与研究方法

本文研究流程主要分为以下几个部分:

1. 研究对象与数据集

文章采用了多种数据集,包括: - 数据集 1:配对的 RNA-seq 和 ATAC-seq 单细胞数据,来自 10x Genomics; - 数据集 2-4:CITE-seq 数据,来源于 Hao 等人(2020), Kotliarov 等人(2020)以及 Stephenson 等人(2021)。总计评估了超过 16 万个健康血液细胞(参考集)和 5 万个 COVID-19 相关的疾病细胞(查询数据)。

所有数据集均经过统一的质量控制和预处理过程,包括基因表达数据的归一化与 log 转换、染色质开放性数据的二值化处理,以及蛋白计数数据的比例中心化转换。

2. Multigrate 模型架构

Multigrate 是一种无监督深度生成模型。其核心工作机制包括: - 利用 Product of Experts (PoE) 框架建模多个模态的联合分布,并设计能够处理部分模态缺失的情况下的条件后验概率分布; - 引入转移学习组件,在已有参考图谱的基础上精细调整权重以适配新查询数据; - 通过编码器(modality encoder)与解码器(modality decoder)分别实现模态特征提取和模态数据重构。 - 损失函数部分结合了重建损失(由负二项分布或均方误差确定),最大平均差异(最大化不同数据集联合表示的相似性)以及 KL 散度(约束潜在变量的分布)。

3. 数据处理与分析流程

研究中的数据处理工作流主要包括: - 数据整合:通过 Multigrate 的联合潜在空间整合多模态数据,包括配对数据和非配对数据的整合; - 缺失模态推测:从 CITE-seq 和 RNA-seq 数据中推测蛋白丰度; - 转移学习和参考图谱映射:利用转移学习,将新 COVID-19 查询数据映射到健康参考图谱中。


研究主要结果

本文的研究通过大量实验演示了 Multigrate 的卓越性能,从以下几个方面展示了结果和贡献:

1. 多模态数据整合

在整合任务中,Multigrate 在多个数据集上表现出色,与 MOFA+、Seurat v4 和 TotalVI 等已有方法进行了对比。在生物学保真度(bio-conservation metrics)和批次校正(batch correction metrics)方面均略胜一筹: - 数据集 3 的整合质量评价表明 Multigrate 综合评分高于其他三种方法; - 多模态数据被成功映射到一体化的潜在空间,UMAP 图展示了良好的跨实验室、一致化的整合表现。

2. 缺失模态数据的推测

对于缺失模态数据推测的实验,研究展示了一个单细胞 CITE-seq 数据集上的能力: - 总计 15,000 个细胞的数据中,1/3 的 RNA-seq 数据被设计为无蛋白数据模拟缺失模态; - 多种方法对蛋白丰度进行推测,Multigrate 得到的推测值与真实值的 Pearson 相关系数显著高于 Seurat 和 TotalVI。

3. 参考图谱的建立与查询映射

研究成功构建了包含 3 种模态(基因表达、蛋白计数和染色质开放性)的健康参考图谱,并通过转移学习将 COVID-19 病例细胞映射到该图谱内: - UMAP 显示,在加入新查询数据后,不同研究条件的数据集(健康 vs 疾病)被完全整合; - 病例细胞类型注释的准确率达到 79%,其中主要错误类别如 Treg 和 ASDC 的原因在于其在参考图谱中占比极小。


研究结论与意义

本文提出了一个专为单细胞多模态组学数据设计的高效整合模型 Multigrate,并通过实验表明其能够在数据整合、缺失模态推测以及健康-疾病查询数据整合等任务中超越现有方法。

本文科学意义: - 解锁了单细胞多模态组学数据(尤其是非配对数据)的整合潜力; - 提供了一种用于构建和更新多模态细胞图谱的工具,可以被广泛用于健康与疾病研究。

应用价值: - 提供了更为全面的基于组学数据的细胞生物学研究视角; - 推测功能可以用于诊断和临床研究推进,对未知数据集的功能预测有重大帮助。


研究亮点与创新

  • Multigrate 是第一个能够同时处理已配对和非配对模态数据的整合框架;
  • 模型的无监督生成特性使其潜力适用于广泛的多模态组学技术;
  • 转移学习的引入极大提高了模型的通用性和扩展性。

展望与建议

研究者指出,未来将通过加入正则化(如循环一致性损失)进一步提高未配对数据整合质量,并用可学习嵌入替代 one-hot 模态标签。随着单细胞多模态数据的迅速增多,Multigrate 或将成为该领域的数据整合和分析的核心工具之一。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com