分享自:

基于优化的单细胞转录组学的细胞谱系和通信网络推断

期刊:nucleic acids researchDOI:10.1093/nar/gkz204

单细胞转录组学中基于优化方法的细胞谱系与通讯网络推断研究

第一作者及单位
本研究由美国加州大学欧文分校数学系的Shuxiong Wang、Matthew Karikomi、Adam L. Maclean(通讯作者,南加州大学生物科学系)和Qing Nie(通讯作者,加州大学欧文分校发育与细胞生物学系)合作完成,2019年3月29日在线发表于Nucleic Acids Research期刊(2019年第47卷第11期,文章编号e66,DOI: 10.1093/nar/gkz204)。


学术背景
研究领域与动机
本研究属于单细胞转录组学(single-cell transcriptomics)与计算生物学交叉领域。随着单细胞RNA测序(scRNA-seq)技术的快速发展,解析细胞亚群、状态转换及细胞间通讯成为重要挑战。尽管已有多种计算工具用于细胞聚类、标记基因识别和伪时间排序(pseudotemporal ordering),但尚无统一框架整合这些任务以推断细胞间通讯网络(cell-cell communication network)。细胞间通讯的预测需要多层次的连贯分析,包括亚群划分、谱系关系和基因标记等,而现有方法缺乏这种系统性关联,导致细胞通讯网络的推断成为难题。

研究目标
开发一种名为
SOPtsc**(Similarity matrix-based Optimization for single-cell data analysis)的数学框架,通过结构化细胞相似性矩阵(cell-cell similarity matrix)同步完成无监督聚类(unsupervised clustering)、伪时间排序、谱系推断和标记基因识别,并预测通路特异性(pathway-specific)的细胞通讯网络,揭示发育与分化过程中的反馈或前馈调控机制。


研究流程与方法
1. 相似性矩阵构建与细胞聚类
- 输入数据:单细胞基因表达矩阵(m×n,m为基因数,n为细胞数)。
- 核心算法:通过低秩表示模型(low-rank representation model)学习系数矩阵Z,构建对称相似性矩阵S=max(|Z|, |Z^T|)。
- 聚类方法:采用对称非负矩阵分解(symmetric non-negative matrix factorization, NMF)将S分解为H×H^T,其中H的列向量代表聚类中心。通过截断共识矩阵(truncated consensus matrix)的图谱分析估计聚类数k。
- 标记基因识别:利用矩阵H与基因表达矩阵X的乘积计算基因权重,筛选特异性高表达基因作为标记基因(marker genes)。

  1. 伪时间与谱系推断

    • 图构建:基于相似性矩阵S生成细胞-细胞图(cell-cell graph),节点为细胞,边权重为S的值。
    • 伪时间计算:以初始细胞(用户指定或自动选择)为根节点,通过最短路径长度定义伪时间顺序。
    • 谱系树构建:在聚类-聚类图(cluster-cluster graph)上计算最小生成树(minimum spanning tree, MST),反映细胞状态转换路径。
  2. 细胞通讯网络预测

    • 输入定义:用户提供配体-受体对(ligand-receptor pairs)及靶基因集(含上调或下调信息)。
    • 信号概率模型:对每对细胞(i,j),计算配体表达(li)、受体表达(rj)及靶基因活性(yv,j)的联合概率(公式2)。
    • 网络分析:汇总单细胞信号概率为聚类间通讯网络,结合谱系树识别反馈/前馈调控环路。

创新性方法
- SOPtsc框架:首次通过相似性矩阵统一聚类、谱系和通讯网络推断。
- 低秩约束:提升相似性矩阵的全局与局部结构保持能力。
- 通路特异性通讯模型:整合配体-受体-靶基因三元关系量化信号概率。


主要结果
1. 聚类性能验证
- 数据集:9个已发表scRNA-seq数据集(含5个“金标准”数据集),如Deng等人(2014)和小鼠胚胎发育数据(Guo et al., 2010)。
- 对比方法:SC3、SIMLR、Seurat和t-SNE+k-means。
- 结论:SOPtsc在标准化互信息(NMI)指标上优于或持平其他方法(图2a),且聚类数预测更准确(图2b)。

  1. 伪时间排序与谱系推断

    • 胚胎发育(Guo et al.):成功识别从受精卵到外胚层(epiblast)的9个亚群,包括滋养外胚层(trophectoderm, TE)、原始内胚层(primitive endoderm, PE)的分支(图4d)。伪时间与实验发育阶段高度一致(图4e)。
    • 表皮再生(Joost et al.):发现基底干细胞群(basal stem cells)的异质性,预测分化路径中TGF-β→BMP→Wnt的时序性信号激活(图5c)。
  2. 细胞通讯网络

    • 造血系统(Olsson et al.):预测BMP信号在粒细胞/单核细胞祖细胞(GMP)中活跃,与文献支持的骨髓调控功能一致(图6d)。
    • 跨数据集验证:在Nestorowa et al.的造血数据中,SOPtsc预测的Wnt通路反馈作用与Olsson数据一致(图7d),表明方法的鲁棒性。

结论与价值
1. 科学意义
- SOPtsc首次实现了单细胞数据中聚类、谱系和通讯网络的协同推断,解决了细胞通讯预测的集成难题。
- 通过相似性矩阵的统一优化,避免了传统多步骤分析的偏差累积。

  1. 应用价值

    • 为发育生物学(如胚胎分化)、再生医学(如表皮修复)和血液疾病(如造血异常)提供新的分析工具。
    • 开源实现(MATLAB/R包)支持社区扩展应用。
  2. 理论贡献

    • 提出基于低秩表示的相似性矩阵构建方法,增强了对高维噪声的鲁棒性。
    • 信号概率模型首次整合配体-受体互作与靶基因调控,提升了通讯网络的可解释性。

研究亮点
1. 方法创新
- 全流程整合:单框架完成从聚类到通讯网络的完整分析。
- 可扩展性:支持用户自定义通路,灵活适配不同生物学问题。

  1. 生物学发现

    • 揭示造血中BMP信号的祖细胞特异性激活,提出Wnt/TGF-β反馈调控的新假说。
    • 在表皮再生中发现基底干细胞的亚群异质性,修正了既往的均质化认知。
  2. 技术革新

    • 伪时间推断的准确性超越DPT和Monocle 2(图3c-f),聚类鲁棒性优于SC3(图2b)。

后续方向
作者指出,未来可结合单细胞多组学数据(如染色质可及性)进一步提升通讯网络预测精度,并开发更高效的NMF算法以支持大规模数据分析。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com