单细胞多组学数据整合方法 Multigrate 的设计与应用

分享自：
单细胞多组学数据整合方法 Multigrate 的设计与应用

信息科学
生命科学
期刊:biorxivDOI:10.1101/2022.03.16.484643
【点击此处】阅读全文、收藏及针对性提问
学术报告：基于文档内容的总结作者与机构信息本文的主要作者包括 Mohammad Lotfollahi, Anastasia Litinetskaya 和 Fabian J. Theis，他们分别隶属于 Helmholtz Center Munich 的 Institute of Computational Biology、Technical University of Munich 的 School of Life Sciences Weihenstephan 以及 Department of Mathematics。本文作为 preprint 发表在 bioRxiv，并参与了 2021 ICML Workshop on Computational Biology 的相关研究讨论。
研究背景与研究目的近年来，单细胞多模态组学（single-cell multi-omics）技术的快速发展，为理解细胞决策机制提供了一种全面的方法。这些技术能够同时测量单细胞中的多个特征，例如在 CITE-seq 技术中同时测量基因表达（gene expression）和表面蛋白计数（surface protein counts），在 ATAC-seq 技术中同时揭示转录组和染色质开放性。然而，由于多模态数据普遍存在不完整的参考样本、不重叠的特征和数据集之间的批次效应，学习和整合这种数据的挑战性显著。现有的方法大多局限于特定的配对测量技术，缺乏处理和推测（imputation）丢失模态数据的机制，同时在处理非匹配测量的数据集时显得不够鲁棒。
为了解决上述问题，本文提出并验证了一种新的生成性多视角神经网络架构——Multigrate。这种方法旨在构建多模态参考图谱（multimodal reference atlas），可以泛化到多种多模态组学技术，同时具备强大的整合能力，能够接近目前相关领域的最优方法。
研究的目的包括： 1. 集成不同模态的数据，统一多模态数据视图； 2. 处理非配对数据并对缺失模态进行推测； 3. 利用转移学习实现新查询数据的参考映射； 4. 构建健康和疾病细胞的多模态参考图谱，并可扩展性地加入新的数据。
研究流程与研究方法本文研究流程主要分为以下几个部分：
1. 研究对象与数据集文章采用了多种数据集，包括： - 数据集 1：配对的 RNA-seq 和 ATAC-seq 单细胞数据，来自 10x Genomics； - 数据集 2-4：CITE-seq 数据，来源于 Hao 等人（2020）, Kotliarov 等人（2020）以及 Stephenson 等人（2021）。总计评估了超过 16 万个健康血液细胞（参考集）和 5 万个 COVID-19 相关的疾病细胞（查询数据）。
所有数据集均经过统一的质量控制和预处理过程，包括基因表达数据的归一化与 log 转换、染色质开放性数据的二值化处理，以及蛋白计数数据的比例中心化转换。
2. Multigrate 模型架构Multigrate 是一种无监督深度生成模型。其核心工作机制包括： - 利用 Product of Experts (PoE) 框架建模多个模态的联合分布，并设计能够处理部分模态缺失的情况下的条件后验概率分布； - 引入转移学习组件，在已有参考图谱的基础上精细调整权重以适配新查询数据； - 通过编码器（modality encoder）与解码器（modality decoder）分别实现模态特征提取和模态数据重构。 - 损失函数部分结合了重建损失（由负二项分布或均方误差确定），最大平均差异（最大化不同数据集联合表示的相似性）以及 KL 散度（约束潜在变量的分布）。
3. 数据处理与分析流程研究中的数据处理工作流主要包括： - 数据整合：通过 Multigrate 的联合潜在空间整合多模态数据，包括配对数据和非配对数据的整合； - 缺失模态推测：从 CITE-seq 和 RNA-seq 数据中推测蛋白丰度； - 转移学习和参考图谱映射：利用转移学习，将新 COVID-19 查询数据映射到健康参考图谱中。
研究主要结果本文的研究通过大量实验演示了 Multigrate 的卓越性能，从以下几个方面展示了结果和贡献：
1. 多模态数据整合在整合任务中，Multigrate 在多个数据集上表现出色，与 MOFA+、Seurat v4 和 TotalVI 等已有方法进行了对比。在生物学保真度（bio-conservation metrics）和批次校正（batch correction metrics）方面均略胜一筹： - 数据集 3 的整合质量评价表明 Multigrate 综合评分高于其他三种方法； - 多模态数据被成功映射到一体化的潜在空间，UMAP 图展示了良好的跨实验室、一致化的整合表现。
2. 缺失模态数据的推测对于缺失模态数据推测的实验，研究展示了一个单细胞 CITE-seq 数据集上的能力： - 总计 15,000 个细胞的数据中，1/3 的 RNA-seq 数据被设计为无蛋白数据模拟缺失模态； - 多种方法对蛋白丰度进行推测，Multigrate 得到的推测值与真实值的 Pearson 相关系数显著高于 Seurat 和 TotalVI。
3. 参考图谱的建立与查询映射研究成功构建了包含 3 种模态（基因表达、蛋白计数和染色质开放性）的健康参考图谱，并通过转移学习将 COVID-19 病例细胞映射到该图谱内： - UMAP 显示，在加入新查询数据后，不同研究条件的数据集（健康 vs 疾病）被完全整合； - 病例细胞类型注释的准确率达到 79%，其中主要错误类别如 Treg 和 ASDC 的原因在于其在参考图谱中占比极小。
研究结论与意义本文提出了一个专为单细胞多模态组学数据设计的高效整合模型 Multigrate，并通过实验表明其能够在数据整合、缺失模态推测以及健康-疾病查询数据整合等任务中超越现有方法。
本文科学意义： - 解锁了单细胞多模态组学数据（尤其是非配对数据）的整合潜力； - 提供了一种用于构建和更新多模态细胞图谱的工具，可以被广泛用于健康与疾病研究。
应用价值： - 提供了更为全面的基于组学数据的细胞生物学研究视角； - 推测功能可以用于诊断和临床研究推进，对未知数据集的功能预测有重大帮助。
研究亮点与创新Multigrate 是第一个能够同时处理已配对和非配对模态数据的整合框架；
模型的无监督生成特性使其潜力适用于广泛的多模态组学技术；
转移学习的引入极大提高了模型的通用性和扩展性。
展望与建议研究者指出，未来将通过加入正则化（如循环一致性损失）进一步提高未配对数据整合质量，并用可学习嵌入替代 one-hot 模态标签。随着单细胞多模态数据的迅速增多，Multigrate 或将成为该领域的数据整合和分析的核心工具之一。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问