空间转录组学数据的深度聚类表征:基于多视角变分图自编码器与共识聚类的新方法
作者及机构
本研究由云南大学信息科学与工程学院的牛金云(共同第一作者)、王顺芳、闵文文(通讯作者),云南开放大学健康与护理学院的朱芳芳(共同第一作者),以及中国科学院合肥物质科学研究院的徐涛胜合作完成,发表于2024年12月的《Computational and Structural Biotechnology Journal》(第23卷,4369-4383页)。
学术背景
科学领域与背景知识
空间转录组学(Spatially Resolved Transcriptomics, SRT)技术通过结合基因表达谱与空间位置信息,为解析组织微环境提供了前所未有的分辨率。然而,如何整合基因表达、组织学图像和空间坐标数据以准确识别空间域(spatial domains)仍是挑战。现有方法(如k-means、BayesSpace、STAGATE等)存在以下局限:
1. 组织学图像利用不足:仅依赖基因表达或单一空间视图,忽略组织形态学信息;
2. 单视角局限性:单一相似性度量无法全面捕捉空间邻域关系;
3. 聚类结果整合困难:多视图网络的输出缺乏统一框架。
研究目标
开发STMVGAE(Spatial Transcriptomics Multi-view Variational Graph Auto-Encoders),一种基于多视角变分图自编码器和共识聚类的新型分析工具,旨在提升空间域识别的准确性与稳定性,并支持下游分析任务(如空间可变基因鉴定、降噪、批次整合等)。
研究方法与流程
1. 数据增强与多视图构建
- 数据预处理:对5个真实数据集(DLPFC、BCDC、Melanoma、BRCA、Olfactory)进行基因过滤(表达量<50的基因被剔除)、对数归一化和高变基因筛选(3000个)。
- 组织学图像融合:使用预训练的ResNet50 CNN提取组织切片特征,通过自编码器对齐基因表达维度,生成增强表达矩阵(公式:( \tilde{GE} = \alpha_1 \cdot MS + \alpha_2 \cdot GE ))。
- 多视图构建:
- 空间视图:基于欧氏距离和KNN算法,采用BallTree/KDTree构建4种邻接矩阵(radius-balltree、radius-kdtree、knn-balltree、knn-kdtree);
- 基因视图:通过Spearman相关系数和余弦相似性构建基因表达邻接矩阵。
2. 多视角变分图自编码器(MVGAE)
- 网络架构:
- 编码器:两层图卷积网络(GCN)生成低维嵌入( Z ),分别输出均值( \mu )和方差( \log\sigma^2 );
- 解码器:内积解码器重构邻接矩阵(( \hat{A} = \sigma(ZZ^T) ))和基因表达矩阵(( \hat{X} ))。
- 损失函数:结合重构损失(( \mathcal{L}_A )、( \mathcal{L}X ))、KL散度(( \mathcal{L}{KL} ))和自监督聚类损失(( \mathcal{L}_{DEC} )),优化目标为加权总和(公式16)。
3. 共识聚类
- 步骤:
- 对每个视图的嵌入( Z^{(i)} )进行Mclust聚类,生成标签( Y^{(i)} );
- 构建共识矩阵( C ),计算所有聚类结果的相似性;
- 基于层次聚类整合多视图结果,输出最终空间域标签( Y^* )。
4. 下游分析
- 空间域可视化:UMAP降维与PAGA轨迹推断;
- 空间可变基因(SVGs)鉴定:基于邻域差异分析;
- 降噪与批次整合:利用Harmony工具校正批次效应。
主要结果
空间域识别性能
- DLPFC数据集:STMVGAE的ARI(Adjusted Rand Index)达0.562,显著优于STAGATE(0.501)和SEDR(0.499),层状结构边界清晰(图2d);
- BCDC数据集:肿瘤与非肿瘤区域划分准确(ARI=0.73),优于基线方法(STAGATE ARI=0.442);
- 高分辨率数据:在小鼠嗅球数据集(Stereo-seq)中,准确识别RMS(rostral migratory stream)等亚层结构(图6)。
下游任务验证
- 降噪效果:重构后的基因表达(如CCK、MBP)与Allen脑图谱原位杂交数据一致(图3);
- 批次整合:联合分析DLPFC多切片时,STMVGAE+Harmony的ARI达0.49,优于Scanpy和SEDR(图7e)。
多视图优势
- 两视图组合(radius-balltree + knn-balltree)提升显著(ARI=0.55→0.58),但四视图因冗余信息导致性能饱和(图8)。
结论与价值
科学价值
1. 方法论创新:首次将共识聚类引入SRT分析,通过多视图整合提升空间域识别的鲁棒性;
2. 技术通用性:支持不同平台(10x Visium、Stereo-seq)和分辨率的数据;
3. 应用潜力:为肿瘤微环境解析、神经发育研究提供新工具。
亮点
- 多模态融合:组织学图像与基因表达的加权增强;
- 自监督优化:DEC模块动态调整聚类中心;
- 开源工具:代码公开于GitHub(https://github.com/wenwenmin/stmvgae)。
局限性
当前版本未实现多视图嵌入的联合优化,未来计划探索嵌入融合策略以进一步提升性能。
意义
STMVGAE为空间转录组学数据分析提供了高效、稳定的解决方案,其多视角框架和共识聚类策略可扩展至其他组学数据整合研究,推动精准医学和空间生物学的发展。