空间转录组学多样本分析工具Stereopy的学术报告
作者、机构及发表信息
本研究的通讯作者包括Yi Zhao(中国科学院计算技术研究所)、Guangyi Fan(华大基因研究院)、Yong Zhang(华大基因研究院)、Ao Chen(华大基因研究院)、Yuxiang Li(华大基因研究院)和Xun Xu(华大基因研究院)。研究团队由来自中国、拉脱维亚等多国机构的学者组成,主要依托华大基因研究院(BGI Research)及其合作单位。该成果于2025年3月5日发表在Nature Communications(DOI: 10.1038/s41467-025-58079-9)。
学术背景
科学领域:本研究属于空间转录组学(Spatial Transcriptomics, SRT)与生物信息学的交叉领域,聚焦多样本数据的整合分析。
研究动机:随着高分辨率SRT技术(如Stereo-seq、Slide-seq、MERFISH等)的发展,研究者能够获取大规模多样本数据,但现有分析工具(如Seurat、Scanpy、Giotto)主要针对单样本设计,缺乏高效的多样本整合框架。多样本分析面临三大挑战:
1. 数据管理:缺乏统一容器存储跨样本的多模态数据;
2. 算法局限性:现有方法难以同时解析时空动态与细胞互作;
3. 可视化瓶颈:传统工具难以交互展示多维数据(如3D空间+时间序列)。
研究目标:开发Stereopy——一个支持多样本SRT数据管理、分析与可视化的综合工具箱,重点解决以下问题:
- 跨样本的细胞异质性比较;
- 时空动态基因模式识别;
- 三维微环境下的细胞-基因互作网络推断。
研究流程与方法
1. 框架设计
Stereopy包含三大核心组件:
- MSData容器:扩展Anndata格式,支持多样本数据存储,保留单样本依赖关系;
- MSS控制器:管理样本子集选择、结果存储与分析依赖追踪;
- 多样本转换器:支持单样本与多样本结果的相互转换。
2. 关键算法开发
(1)细胞群落检测(Cell Community Detection, CCD)
- 输入:单样本或多样本的细胞空间坐标与基因表达矩阵(如小鼠胚胎全脑、肾脏切片)。
- 流程:
- 空间卷积:通过滑动窗口(默认大小150μm,步长50μm)计算局部细胞类型组成;
- 聚类分析:基于窗口内细胞类型比例,使用谱聚类或Leiden算法划分功能区域;
- 群落标注:通过多数投票确定单个细胞的群落标签。
- 创新点:引入自动过滤机制,剔除空间分布均匀的细胞类型(如红细胞),提升群落特异性。
(2)时空基因模式识别(Temporal Gene Pattern Inference, TGPI)
- 输入:时间序列样本(如小鼠胚胎E9.5-E16.5的8个时间点)。
- 流程:
- 趋势分析:通过置换检验(permutation test)计算基因的连续上调/下调概率;
- 特征融合:结合时序趋势(f_temporal)与空间PCA特征(f_spatial),加权后输入模糊C均值聚类;
- 模式挖掘:识别如“先升后降”的复杂表达模式(如皮质区基因Tead1)。
- 创新点:提出FPR评分(False Positive Risk score),量化基因连续变化的显著性。
(3)三维互作推断(NicheReg3D)
- 输入:连续切片的三维重建数据(如小鼠心脏59个10μm厚切片)。
- 流程:
- 微环境定义:以目标细胞(如心室心肌细胞VCMs)为中心,25μm半径内筛选邻近细胞;
- 配体-受体分析:预测跨细胞互作(如Vcan-Itgb1);
- 调控网络推断:连接细胞间信号(如Igf2-Igf2r)与细胞内转录因子(如Mef2c)。
- 创新点:首次实现三维空间约束下的“配体-受体-TF-靶基因”全路径建模。
3. 性能优化
- 并行计算:预处理、聚类等模块支持多样本并行处理,较Seurat提速90倍;
- GPU加速:Leiden聚类、SingleR注释等耗时操作通过GPU实现,速度提升5-10倍。
主要结果
1. 比较分析(小鼠肾脏疾病模型)
- 细胞群落:CCD算法在UMOD-C125R突变小鼠中鉴定出髓质区特异性群落,其成纤维细胞占比显著高于野生型(WT)(p<0.01),与既往研究一致。
- 标志基因:发现Spp1(骨桥蛋白)为突变样本的条件性标志物(conditional marker),其高表达与肾结石风险相关(文献支持)。
2. 时空分析(小鼠胚胎大脑发育)
- 基因动态:TGPI识别出Foxg1(前脑发育关键TF)的连续上调模式,以及Hes5(神经前体细胞标记)的下降趋势(FPR评分>0.8)。
- 皮质区调控:Tead1在E12.5调控338个靶基因(如Tcf4),至E13.5仅剩7个,提示其神经发生功能完成。
3. 三维互作(小鼠心脏发育)
- 微环境信号:VCMs通过Vcan-Itgb1接收成纤维细胞信号(通讯评分=0.293,p=0.00),激活Wnt/β-catenin通路调控Tcf4。
- 协同调控:Igf2-Igf2r与Calm1-Ryr2共同调控心肌细胞增殖,富集到“心脏收缩”GO条目(p<1e-5)。
结论与价值
科学意义:
1. 方法学突破:Stereopy首次实现多样本SRT数据的统一分析框架,填补了现有工具空白;
2. 生物学发现:揭示肾脏疾病中髓质区细胞组成变化、大脑发育的时空基因模块、心脏微环境的跨维度调控机制。
应用价值:
- 临床研究:条件性标志物(如Spp1)可为疾病诊断提供新靶点;
- 技术推广:开源工具(GitHub: stereopy)支持GEF/h5ad等多种数据格式,兼容主流SRT平台。
研究亮点
- 全流程创新:从数据容器(MSData)到核心算法(CCD/TGPI/NicheReg3D)均为原创;
- 多维整合:首次在单框架内实现“比较-时空-3D”分析;
- 性能优势:GPU加速使聚类速度超越Scanpy/Seurat 10倍以上。
其他价值
- 社区贡献:提供开发者模式鼓励算法扩展,推动多样本分析标准化;
- 跨物种适用性:已在小鼠、人类样本中验证,支持临床与免疫学研究拓展。
(注:文中涉及的算法代码与教程详见https://stereopy.readthedocs.io)