GSPA:基于单细胞分辨率的基因信号模式分析实现基因空间映射
单细胞分辨率下的基因空间映射:基因信号模式分析(GSPA)研究
学术背景
单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术近年来在生物学研究中取得了重大进展,尤其是在揭示细胞状态空间(cellular state space)的组织结构方面。然而,尽管已有许多计算方法用于映射细胞状态空间,但关于基因空间(gene space)的映射或嵌入(embedding)的研究却相对较少。基因表达是高度组织的,基因之间通过复杂的生物过程和通路协同工作。然而,由于生物和技术噪声(如基因丢失“dropout”现象),准确量化基因间的相似性仍然具有挑战性。为此,本文提出了一种基于图信号处理(graph signal processing, GSP)的新方法——基因信号模式分析(Gene Signal Pattern Analysis, GSPA),旨在从单细胞数据中学习丰富的基因表征,并为多种生物学任务提供支持。
论文来源
本文由Aarthi Venkat、Sam Leone、Scott E. Youlten等作者共同撰写,参与单位包括Yale University、Boise State University等多家研究机构。论文于2024年12月发表在Nature Computational Science期刊上,题为“Mapping the gene space at single-cell resolution with gene signal pattern analysis”,DOI为10.1038/s43588-024-00734-0。
研究流程与结果
1. 基因嵌入问题的提出
研究首先提出了基因嵌入问题,即在单细胞数据中,基因表达模式可以被视为在细胞-细胞图(cell-cell graph)上定义的信号。目标是构建一个从高维基因空间到低维嵌入空间的映射,使得基因之间的距离(基于细胞-细胞图的几何结构)得以保留,同时具有噪声鲁棒性,并能灵活应用于下游任务。
2. GSPA模型概述
GSPA的核心思想是将基因表达模式视为在细胞-细胞图上的信号,并利用扩散小波(diffusion wavelets)进行多尺度分解。具体步骤如下: - 构建细胞-细胞图:基于细胞间基因表达谱的相似性构建图,并定义扩散算子(diffusion operator)来描述细胞间的转移概率。 - 构建扩散小波字典:通过扩散算子的幂运算生成多尺度小波,捕捉基因信号的局部和全局特征。 - 基因信号的分解与嵌入:将每个基因信号投影到扩散小波字典上,得到其多尺度表示,并通过自动编码器(autoencoder)进行降维,生成低维基因嵌入。
3. 实验结果与验证
研究通过模拟数据和真实单细胞数据集验证了GSPA的有效性,具体包括: - 基因共表达模块的捕捉:GSPA能够准确捕捉基因共表达模块,并保留基因间的相似性。 - 基因定位(localization)分析:GSPA提出的“差异定位”(differential localization)方法能够识别在细胞-细胞图上局部表达的基因,这些基因通常与细胞状态的变化密切相关。 - 下游应用:GSPA在多方面展示了其广泛的应用价值,包括细胞间通讯分析(GSPA-LR)、空间转录组学(GSPA-Multimodal)和患者反应预测(GSPA-PT)。
4. 具体案例研究
- CD8+ T细胞分化过程中的基因共表达:研究分析了急性与慢性感染中的CD8+ T细胞,识别了与T细胞分化相关的关键基因模块,并揭示了干扰素信号在慢性感染中的独特作用。
- 基于GSPA-LR的细胞间通讯分析:GSPA-LR能够在无需细胞类型标注的情况下识别配体-受体(ligand-receptor, LR)对的信号模式,并揭示了免疫抑制受体PD-1在免疫相关不良事件中的作用。
- 基于GSPA-Multimodal的空间转录组学分析:GSPA-Multimodal能够整合基因表达与空间亲和性,识别空间上可变基因(spatially variable genes),并揭示了人类淋巴结中复杂的多细胞信号网络。
- 基于GSPA-PT的患者反应预测:GSPA-PT通过构建患者向量,能够更准确预测黑色素瘤患者对免疫治疗的反应,并揭示与T细胞功能相关的关键基因。
结论与意义
GSPA通过将基因表达视为细胞-细胞图上的信号,并结合扩散小波与深度学习技术,提供了一种全新的基因嵌入方法。它不仅能够捕捉基因间的复杂关系,还为多种生物学任务(如细胞间通讯、空间转录组学和患者反应预测)提供了强大的分析工具。本文的研究为基因空间映射领域奠定了重要基础,并为未来单细胞数据分析开辟了新的研究方向。
研究亮点
- 新颖的基因嵌入方法:GSPA首次将图信号处理技术应用于单细胞基因表达数据的分析,提出了一种基于扩散小波的基因嵌入框架。
- 多尺度表征:通过构建多尺度扩散小波字典,GSPA能够同时捕捉基因信号的局部和全局特征,提高了基因嵌入的鲁棒性和解释性。
- 广泛的下游应用:GSPA不仅能够用于基因模块识别和细胞间通讯分析,还扩展到了空间转录组学和患者反应预测等领域,展示了其强大的普适性。
- 无需细胞类型标注的分析:GSPA-LR能够在不依赖细胞类型标注的情况下识别配体-受体对的信号模式,为细胞间通讯分析提供了更灵活的工具。
其他有价值的信息
研究还开源了GSPA的代码,方便其他研究者应用和改进该方法。代码可通过GitHub获取。此外,研究在多个真实数据集上的验证结果进一步证明了GSPA在实际生物学研究中的实用性和可靠性。