基于Granger因果循环自编码器的时间序列单细胞RNA测序数据推断基因调控网络
一、学术背景与研究动机
近年来,单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)已成为生命科学与医学研究领域极具突破力的技术之一,使得研究者能够以单个细胞为单位,捕捉到众多细胞间转录水平的微妙差异。这项技术极大地丰富了细胞生物学,对理解细胞分化、发育和疾病发生机制具有重要意义。基于scRNA-seq数据,推断基因调控网络(gene regulatory networks, GRNs),进而揭示转录因子与靶基因间复杂的调控关系,已成为当前生物信息学和系统生物学中的关键问题之一。
然而,scRNA-seq数据本身具有高噪声、高稀疏性和“掉落事件”(dropout events)等特点,带来了极大的数据分析挑战。尤其是在分析时间序列单细胞数据(time-series scRNA-seq data)时,除了上述固有噪声与稀疏性外,数据还具有动态变化特征,进一步加剧了计算与推断难度。传统多数GRN推断方法主要面向静态单细胞数据,对于时序数据建模的能力有限。当前研究所面临的主要难题包括:如何有效地结合时间信息捕获基因的动态调控关系,如何提升算法在高噪声、高稀疏情况下的鲁棒性,以及如何消除仅基于相关性分析导致的高假阳性调控推断。
因此,为解决上述科学与技术难题,推动实际生物研究和疾病机制解析的进展,需要发展全新的、更加高效和鲁棒的GRN推断新方法。
二、论文来源与作者信息
本文题为“Inferring gene regulatory networks from time-series scRNA-seq data via granger causal recurrent autoencoders”,发表于2025年《Briefings in Bioinformatics》期刊第26卷第2期,DOI为:https://doi.org/10.1093/bib/bbaf089。
作者团队包括Liang Chen, Madison Dautle, Ruoying Gao, Shaoqiang Zhang(*通讯作者*),以及Yong Chen(*通讯作者*)。作者分别来自天 津师范大学计算机与信息工程学院(China Tianjin Normal University)和美国Rowan University生物医药科学系。该团队集结了计算机科学、信息工程与生物医学的多学科力量,在单细胞组学与算法开发领域具有丰富经验。
三、研究流程详解
本文为一项原创方法学研究(original research),核心贡献在于提出了一种结合深度学习与因果推断思想的全新无监督方法“Granger”,能够高效、准确地从时序scRNA-seq数据中自动推断GRN结构。下文将详细介绍整个研究设计与实验流程。
1. 方法总体设计
Granger方法以无监督深度学习为基础,核心思想是将“Granger因果检验(granger causality)”与“循环变分自编码器(recurrent variational autoencoder, VAE)”结合。它集成了多项先进技术:递归VAE、Granger因果性检测、可调节的稀疏化惩罚项、基于负二项分布的损失函数(negative binomial loss),专为scRNA-seq时序数据的高噪声、高稀疏性特性而定制。
技术流程梳理:
- 数据预处理与伪时序推断
采用Scanpy对原始单细胞数据做质量过滤、归一化、对数转化及高变基因筛选。若无时间点信息,则利用PAGA算法(Partition-based graph abstraction)自动进行细胞的伪时序排序,为下游时序建模提供输入。 - 时间序列生成
对m个基因表达量,基于伪时序形成各自的表达序列,每个基因g在所有细胞中的表达序列记为$x_g = (x_g^1, x_g^2,…,x_g^t)$,t为时间点数。 - 主模型结构:递归VAE与Granger因果性整合
模型由编码器(encoder)与多头解码器(multi-head decoder)组成。编码器将多变量时序降维至潜在低维特征空间,解码器每个头分别负责重建某个基因的表达序列。RNN(具体为门控循环单元GRU)分别作为编码器与解码器基本单元。模型核心目标为推断每一对基因之间有无因果调控(即目标邻接矩阵$A$),其本质为Granger因果有向图。 - 损失函数设计创新
引入负二项分布对scRNA-seq数据的表达分布拟合,辅助重建误差与KL散度项,整合L1稀疏惩罚以逼近实际的稀疏GRN结构;采用邻接矩阵条目进行可微/不可微优化,进一步减少过拟合。 - 模型优化与训练策略
一阶段采用PGD(Proximal Gradient Descent)与SGD(Stochastic Gradient Descent)混合训练,优化GRU权重和输入层参数;二阶段锁定稀疏解后继续SGD微调。整体框架基于PyTorch实现,支持GPU加速。
2. 数据集与评价体系
研究团队采用了多套数据集,并设计了严谨的基准评测体系:
- 合成数据集
使用beeline框架提供的6个合成数据集,涵盖线性、环状、分叉与融合等复杂拓扑,共提供不同细胞数(100至5000)与10个样本复现,系统模拟发育时序分化过程。
- 真实与整理数据集
4套已整理的真实生物数据集,涉及人胚胎干细胞、小鼠树突状细胞、人肝细胞等,部分支持50%、70%掉落事件的评测。
- 实际应用案例
选取Allen脑图谱中的小鼠脑区域数据,锁定1055个海马相关兴奋性神经元,对5个重要TF(E2F7, GBX1, SOX10, PROX1, ONECUT2)开展GRN预测实证研究。
- 方法对照
与8种主流无监督GRN推断工具进行系统对比,包括GRNBoost2、SINCERITIES、PIDC、PPCOR、SCODE、GENIE3、SINGE及NORMI,覆盖相关性、信息论、回归、因果性等不同技术路线。
性能指标采用AUPRC(Precision-Recall曲线下面积)、AUROC(受试者工作特征曲线下面积)、AUPRC Ratio与Early Precision Ratio(EPR)等,兼顾正负样本不平衡与推断早期准确性。
3. 实验与主要结果
(1)模型损失设计与超参数优化
先后评测了负二项损失项$\lambda_{NB}$、稀疏惩罚$\lambdaa$以及时间滞后参数$l$对推断性能的影响。实验证明: - 引入适当强度的负二项损失($\lambda{NB}=1$)可显著提升AUPRC与AUROC,尤其在高掉落数据场景下表现明显优越; - 稀疏化参数最佳区间为0.2-0.4,可防止网络结构过稀或难以收敛; - 时间滞后窗口长度设置与样本容量相关,大体在l=200-300(中大样本)获得最优表现; - 采用两层GRU显著优于单层结构,捕获复杂非线性动态。
(2)伪时序算法的重要性
对比SLINGSHOT、PAGA、SCORPIUS三种主流伪时序算法,验证PAGA和SLINGSHOT所得伪时序均能大幅提升GRN推断准确性,随机时序作对照组指标显著下降,说明时序信息对动态网络推断至关重要。
(3)与主流方法对比结果
在所有合成与真实数据集上,Granger均获得最高或次高AUPRC/AUROC。对小数据量、高掉落(50%、70%)场景尤其强势,比对方法常表现平庸甚至不可用。对于实际应用数据如人胚胎干细胞等数据集,AUPRC Ratio与EPR值皆显著高于竞品。模型表现优异且鲁棒性强,尤其适合实际高噪声生物数据。
(4)小鼠脑细胞应用与生物学发现
方法在小鼠脑兴奋性神经元上成功预测5个TF调控目标,揭示相关基因富集于神经系统发育、细胞-细胞信号、生长因子分泌等关键通路。大部分调控关系得到文献及ChIP-seq数据支持(如PROX1在LIMD1启动子区的绑定信号与染色质标记共定位),且网络结构显示多TF共调控连接性强。部分推断关系并非高共表达特征,突显算法对隐式调控模式的识别能力,为后续实验验证和疾病机制深化刻画提供指导。
四、研究结论与意义
本文提出并实证了一种融合因果推断与深度学习的全新算法框架Granger,能够鲁棒、高效、自动地从时序单细胞组学数据中推断基因有向调控网络。其科学意义体现在: - 前沿方法创新:实现了对动态转录调控系统的因果性建模,显著补足了基于相关性等线性关系方法的不足,具有更强解释性与生物学可推理性; - 技术难题突破:有效解决了scRNA-seq极高稀疏与噪声情形下网络结构的不稳定与假阳性困扰,成为时序研究与稀疏数据建模领域新范例; - 广泛适用性:无监督、免标签、免依赖全局先验TF-基因知识,对未知物种或特殊组织类型亦能广泛适用,极大拓宽了GRN研究适用边界; - 生物学价值:不仅能追溯已知调控,还可发现全新调控关系和协同网络,为疾病靶点发掘、细胞命运研究等应用带来新的可能。
五、研究亮点
- 首创性将Granger因果性与循环自编码器结合,捕获由时序信息驱动的动态基因调控模式;
- 新颖的负二项损失建模与L1稀疏惩罚双重优化,有效抑制高掉落高噪声下的错误推断;
- 方法在所有主流基准集上表现最优,兼具精度与鲁棒性;
- 实际生物数据推断结果获得文献和ChIP-seq等多重证据力证,显示极强生物学解释力。
六、其他信息
七、总结
该研究为基因调控网络推断领域注入了崭新方法论,推动了单细胞组学动态研究的智能化与自动化进程。Granger方法的提出不仅回应了数据稀疏与动态建模的实际需求,更为疾病机理、细胞命运探索和系统生物学提供了坚实工具,为今后相关基础与应用研究奠定坚实基础。