使用多视图聚类进行单细胞数据的社区检测

使用多视图聚类进行单细胞数据的社区检测

中国国防科技大学的Dayu Hu, Zhibin Dong, Ke Liang, Jun Wang, Siwei Wang和 Xinwang Liu报告了他们在单细胞数据聚类上的贡献。

单细胞数据(例如单细胞RNA(scRNA)和转座酶可及染色质单细胞测序(scATAC))包含有关个体细胞的宝贵信息,但在不同视图上对其进行分析存在困难。其中一个挑战是不同视图之间数据丰富度的差异,这可能会导致使用传统聚类方法时整体性能下降。另一个挑战是需要手动指定聚类的数量,对处理单细胞数据的生物学家来说是一项艰巨的任务。

为了解决这些挑战,研究提出了一种名为scUNC的新方法。scUNC的主要目标是在不需要预定义聚类数量的情况下,准确地对来自不同视图的单细胞数据进行聚类。它整合了一个跨视图融合网络,可以有效地整合来自不同视图的信息,并基于每个视图的信息丰富度自动分配权重。此外,它使用了社区检测和dip检验来生成初始聚类,并在收敛之前进行迭代合并,消除了手动聚类规范的需要。

该研究使用三个单细胞数据集对scUNC进行了评估,展示了它相对于基线方法的优越性能。这些数据集包括BMNC、SMAGE-10K和SMAGE-3K,其样本大小和聚类数量各不相同。评估指标包括调整后的兰德指数(ARI)、归一化互信息(NMI)、纯度(PUR)和准确性(ACC)。


他们如何构建算法?

作者描述了他们提出的scUNC框架,用于整合单细胞RNA测序(scRNA)和单细胞ATAC测序(scATAC)数据。该框架旨在为每个视图分配最佳权重,并有效地融合两个视图的信息。该框架的一个关键优势是,它消除了手动指定聚类数量的需要,这对进行细胞聚类分析的生物学家非常有益。

该框架首先排除异常细胞,然后使用多个自动编码器将原始特征矩阵转换为低维表示。然后将这些表示级串联起来形成一个共享的嵌入。为了解决scRNA和scATAC视图之间信息丰富度的不一致性,作者提出了一个跨视图融合网络(CVFN),它根据它们的信息丰富度为每个视图分配权重。这种不平衡在融合过程中通过为每个视图分配不同权重来纠正。

作者没有使用传统的k均值算法,而是使用了社区检测来形成初始聚类。社区检测是一种根据节点之间的邻居关系将节点分配到社区的技术,非常适合分析单细胞数据。然后,作者提出了一种受dip检验统计工具启发的迭代合并过程,用于根据它们的结构相似性合并聚类。

CVFN网络和社区检测过程被合并成一个整体优化模块,其中包括一个重构损失,用于衡量重构数据和输入数据之间的差异。该框架旨在从整合的scRNA和scATAC数据中生成高质量的表示和聚类。

仅依靠重构损失不足以对细胞表示施加足够的约束。因此,作者引入了一个聚类损失来促进联合优化。实质上,他们的模型通过最小化细胞表示与指定聚类中心之间的差异来完善嵌入。因此,在优化过程中,具有较高dip分数的聚类逐渐收敛。这个结果与他们的工作流程的设计原则一致,即迭代地合并相似的聚类。此外,他们还整合了基于Dc的标准差,以确保同时将单个聚类拉到远离位置的尺度。

最终的损失函数是聚类损失和重构损失的组合,使用超参数λ1和λ2来平衡这两种损失。完整的聚类过程涉及优化模块和自动合并模块的协作。在获得融合的细胞表示后,使用社区检测算法生成初始聚类。这些聚类然后基于dip检验进行评估。高度相关的聚类被合并在一起。优化过程和合并过程交替运作,并相互加强,直到无法进一步合并为止。这种自动聚类算法消除了手动参数配置的需要,并通过将相似的聚类聚集在一起并将它们合并来产生高质量的聚类。


性能如何?

作者呈现了提出的scUNC方法与其他基线方法的性能比较。结果表明,在各种评估指标中,scUNC始终优于其他方法,在12项评估中有8项排名第一,在11项中排名前两位。在SMAGE-3K数据集上PUR指标略有下降,归因于潜在的类别不平衡问题。他们的论文还包括了由scUNC生成的嵌入和去除模块的模型的可视化,突出了scUNC实现的优越的离散度和聚类分离度。

为了验证所提出模块的有效性,该论文对两组模型变体进行了消融实验。结果显示所有三个模块(CVFN网络、聚类损失和重构损失)对scUNC的整体性能都有显著贡献。移除任何一个模块都会导致性能下降,表明它们在优化模型中的重要性。此外,另一组消融实验验证了自动合并模块提供的性能增强。结果表明合并模块极大地改进了聚类性能,强调了它在scUNC模型中的关键作用。

此外,该论文评估了scUNC在非细胞多视图数据上的泛化能力,并将其与其他为单细胞数据设计的竞争方法进行了比较。结果显示scUNC在非细胞数据集上取得了出色的性能,展示了它强大的泛化能力和在不同场景中的扩展潜力。

总之,该论文中提出的scUNC模型是专门针对单细胞数据的无K MVC框架。它有效地解决了不同细胞视图之间的信息丰富度差异,并整合了自动聚类和合并模块。广泛的实验结果验证了scUNC在单细胞和非单细胞数据中的优越性能和泛化能力。该论文还分析了scUNC模型的超参数、收敛性和稳定性,进一步深入了解其性能和有效性。