单细胞转录组学中基于优化方法的细胞谱系与通讯网络推断研究
第一作者及单位
本研究由美国加州大学欧文分校数学系的Shuxiong Wang、Matthew Karikomi、Adam L. Maclean(通讯作者,南加州大学生物科学系)和Qing Nie(通讯作者,加州大学欧文分校发育与细胞生物学系)合作完成,2019年3月29日在线发表于Nucleic Acids Research期刊(2019年第47卷第11期,文章编号e66,DOI: 10.1093/nar/gkz204)。
学术背景
研究领域与动机:
本研究属于单细胞转录组学(single-cell transcriptomics)与计算生物学交叉领域。随着单细胞RNA测序(scRNA-seq)技术的快速发展,解析细胞亚群、状态转换及细胞间通讯成为重要挑战。尽管已有多种计算工具用于细胞聚类、标记基因识别和伪时间排序(pseudotemporal ordering),但尚无统一框架整合这些任务以推断细胞间通讯网络(cell-cell communication network)。细胞间通讯的预测需要多层次的连贯分析,包括亚群划分、谱系关系和基因标记等,而现有方法缺乏这种系统性关联,导致细胞通讯网络的推断成为难题。
研究目标:
开发一种名为SOPtsc**(Similarity matrix-based Optimization for single-cell data analysis)的数学框架,通过结构化细胞相似性矩阵(cell-cell similarity matrix)同步完成无监督聚类(unsupervised clustering)、伪时间排序、谱系推断和标记基因识别,并预测通路特异性(pathway-specific)的细胞通讯网络,揭示发育与分化过程中的反馈或前馈调控机制。
研究流程与方法
1. 相似性矩阵构建与细胞聚类
- 输入数据:单细胞基因表达矩阵(m×n,m为基因数,n为细胞数)。
- 核心算法:通过低秩表示模型(low-rank representation model)学习系数矩阵Z,构建对称相似性矩阵S=max(|Z|, |Z^T|)。
- 聚类方法:采用对称非负矩阵分解(symmetric non-negative matrix factorization, NMF)将S分解为H×H^T,其中H的列向量代表聚类中心。通过截断共识矩阵(truncated consensus matrix)的图谱分析估计聚类数k。
- 标记基因识别:利用矩阵H与基因表达矩阵X的乘积计算基因权重,筛选特异性高表达基因作为标记基因(marker genes)。
伪时间与谱系推断
细胞通讯网络预测
创新性方法:
- SOPtsc框架:首次通过相似性矩阵统一聚类、谱系和通讯网络推断。
- 低秩约束:提升相似性矩阵的全局与局部结构保持能力。
- 通路特异性通讯模型:整合配体-受体-靶基因三元关系量化信号概率。
主要结果
1. 聚类性能验证
- 数据集:9个已发表scRNA-seq数据集(含5个“金标准”数据集),如Deng等人(2014)和小鼠胚胎发育数据(Guo et al., 2010)。
- 对比方法:SC3、SIMLR、Seurat和t-SNE+k-means。
- 结论:SOPtsc在标准化互信息(NMI)指标上优于或持平其他方法(图2a),且聚类数预测更准确(图2b)。
伪时间排序与谱系推断
细胞通讯网络
结论与价值
1. 科学意义:
- SOPtsc首次实现了单细胞数据中聚类、谱系和通讯网络的协同推断,解决了细胞通讯预测的集成难题。
- 通过相似性矩阵的统一优化,避免了传统多步骤分析的偏差累积。
应用价值:
理论贡献:
研究亮点
1. 方法创新:
- 全流程整合:单框架完成从聚类到通讯网络的完整分析。
- 可扩展性:支持用户自定义通路,灵活适配不同生物学问题。
生物学发现:
技术革新:
后续方向:
作者指出,未来可结合单细胞多组学数据(如染色质可及性)进一步提升通讯网络预测精度,并开发更高效的NMF算法以支持大规模数据分析。