MAEST:基于图掩码自编码器的空间转录组学中的精确空间域检测
空间转录组学——解析组织空间异质性的前沿技术
空间转录组学(Spatial Transcriptomics, ST)是一项近年来蓬勃发展的测序技术,其核心在于能够在组织切片层面,兼顾基因表达与空间位置信息,为揭示多细胞生物组织的空间结构、功能分区及疾病微环境提供了前所未有的数据基础。随着10x Visium、Slide-seq、Stereo-seq、seqFISH和MERFISH等平台技术的逐步成熟,科学家得以获得高分辨率、空间可追溯的大规模基因表达数据,极大推动了发育生物学、神经科学及肿瘤生物学等领域的进步。
空间结构域识别(Spatial Domain Identification)则是空间转录组数据分析中的核心环节。其目标是将表达模式相近、地理位置相邻的细胞点(Spot)分为具有生物学意义的空间结构区域,从而还原复杂组织的组织学构造与机能分区。然而,已有多数方法在实现空间结构域识别时,或过度依赖于基因表达谱,忽视了关键的空间邻域信息,或面对高噪音高缺失率的原始数据时,鲁棒性受限,无法保证结构域划分的连续性和准确性。
论文出处与作者背景
该研究团队由Pengfei Zhu、Han Shu、Yongtian Wang等人领衔,成员分属于西北工业大学计算机学院与大数据存储与管理工业和信息化部重点实验室、郑州大学计算机与人工智能学院、西安理工大学计算机科学与工程学院以及西北大学附属医院等多家单位,具备交叉学科的雄厚实力。论文由Oxford University Press于2025年《Briefings in Bioinformatics》(Volume 26, Issue 2, bbaf086)正式发表,并开放源代码(https://github.com/clearlove2333/maest)。
研究设计与技术路线
该研究提出了一种全新的基于图神经网络(Graph Neural Network, GNN)的空间结构域识别方法——MAEST(Masked AutoEncoder for Spatial Transcriptomics),专为应对空间转录组数据特有的高缺失、高噪音、空间结构复杂等挑战而设计。
1. 整体工作流程
MAEST方法设计了如下多步骤、高度集成的分析流程:
(1)数据预处理与图结构构建
- 数据清洗与标准化:首先,按照STAGATE等研究惯例,剔除ST原始数据中的离群点(outliers),随后对基因表达矩阵进行log转化和归一化处理,并筛选出变化最大的前3000个基因作为后续主特征。
- 空间邻接图生成:以图结构G = (V, A, X)建模整体组织,每个节点v代表一个spot,其特征向量x为归一化后的基因表达量。定义每个节点的k个最邻近(k=3,经验最优参数)为其空间邻居,连接双向边,形成无向空间邻接图。
(2)图掩码自编码器(Graph Masked Autoencoder)模块构建
该模块为MAEST的创新核心,旨在解决噪音、冗余、高缺失等难题:
- 特征随机掩码:随机mask部分节点,将其特征设为全零,输入GNN编码器,力图依据未mask节点及空间邻接关系重建被mask的节点特征。
- 多重随机Re-Mask:为增强鲁棒性,对隐藏层做多次随机mask,每次都需要decoder恢复原始特征,充分增加模型对局部扰动的适应力。
- 正则化机制:通过引入Projector(MLP网络),约束损失函数,使有掩码场景下的节点表征能尽量复原无掩码场景下的输出,加速收敛、提升参数稳定性。
(3)节点对比判别(Graph Contrastive Learning)模块
补足自编码器捕捉的局部表征能力,提升对全局空间关系的识别能力:
- 正负样本生成:对原有属性图通过基因表达向量随机置换得到增强视图(保持连边,仅调换表达矩阵x’),经同一个GNN编码器编码后,下接共享参数的MLP压缩获得最终表征z, z’。
- 特征判别学习:通过二元交叉熵函数,判别原始图节点vs.增强图节点,实现对正样本(对应节点原始特征vs全局表征)与负样本(置乱特征vs原图全局表征)的拉近与区分,促使模型特征分布更加均匀、富有区分性。
(4)多跳信息融合
- 一跳与多跳聚合:为兼顾结构域局部与远距离空间依赖关系,模型输出将一跳(只包含最近邻)与三跳聚合(仅聚合不带参数的多层聚合模块fn)两种方式获得的特征做融合,实现节点空间关系的多尺度增强。
(5)聚类与空间结构域判定
- Mclust 高斯混合聚类:对融合输出特征矩阵,采用Mclust高斯混合聚类算法分配空间域标签,对于有人工标注的数据集,聚类数量与标注对齐,无人工标注时参考可比方法及组织学特征人为选定簇数。
2. 研究对象与数据集概况
MAEST在五组权威空间转录组公开数据集上进行系统验证,充分考察不同物种、组织部位、平台技术和分辨率下的泛用性,包括:
- 人类背外侧前额叶皮层(LIBD DLPFC, 10x Visium,12片,3460-4789 spots/片,33538基因)
- 小鼠嗅球(Stereo-seq,1片,19109 spots,14376基因)
- 小鼠海马体(Slide-seq v2,1片,52869 spots)
- 小鼠胚胎发育Atlas(Stereo-seq,e11.5-e14.5共4片,30124-92928 spots/片)
- 小鼠脑组织(10x Genomics, 2组前后切片)
3. 算法评价与消融实验
- MAEST聚类准确性采用Accuracy, Adjusted Rand Index(ARI,调整兰德指数)和Normalized Mutual Information(NMI,标准化互信息)多指标综合评价。
- 进一步设计缺失率模拟实验(dropout从0到0.9),检验鲁棒性。
- 对模块功能展开消融实验,逐步剔除/叠加各自部件,验证提升效果与独立贡献。
主要研究成果与数据支撑
1. 人类DLPFC结构域识别优于现有方法
在12个前额叶皮层切片上,MAEST在ACC、ARI、NMI三项指标上均获全体方法最优中位数(ACC=0.77, ARI=0.62, NMI=0.71),优于GraphST、STAGATE、DeepST等七大领域主流方法。空间分区连续性、一致性显著提升,复杂皮层分层与白质分界更加明晰,对比人工标注高度吻合。UMAP与PAGA嵌入空间显示MAEST学习到的表征更能还原空间位置以及空间轨迹。
2. 高分辨率小鼠组织亚结构精细分辨力突出
在Slide-seq v2小鼠海马体数据,MAEST能够还原主要解剖亚区(前脑束、齿状回、CA区金字塔层等),细至三室脑室与邻近亚释义区。不仅在整体分区上准确,还能通过调整聚类簇数,区分高度相似亚区(如视床侧后核与背外侧膝状体),分层识别皮质层,局部与某些空间标记基因的表达极其吻合,显示出模型结构表征的高维性和可解释性。
在Stereo-seq小鼠嗅球数据,MAEST细致区分出包括嗅神经层、颗粒细胞层、外/内丛状层、筛带流(RMS)等解剖分界,优于只做粗分区的GraphST与难以区分微层的STAGATE。进一步基因标志物映射验证显示,MAEST聚类结果与区域特异表达高度重合。
3. 小鼠胚胎发育动态空间建模能力强
对四个发育时点小鼠胚胎全切片,MAEST不仅整体准确重建肝脏、心脏、软骨、肌肉、脑等主结构,且在e14.5脑区识别出两个细粒度功能亚区,分别以星形胶质细胞特异性基因和神经元生长调控基因为标记,展现实质性的功能分化。其余时点总体主结构域与人工标注高度对应,在发育节律与空间动力学揭示价值显著。
4. 跨切片水平方向一致性集成
在小鼠脑前后两组切片上,MAEST实现了水平方向结构连续域还原,如五层大脑皮层层次、海马背角/腹角、“割面”边界处结构过渡的无缝拼接,不同于STAGATE在切片边界上出现的结构分割断裂,亦优于拼接对准后的GraphST方法。
5. 鲁棒性与参数敏感性分析
在不同dropout率下,MAEST表现出优异的抗缺失鲁棒性,保持高准确性直到缺失率达0.8,远超同类方法。消融实验依次验证了掩码自编码器、正则化、对比判别、多跳融合等模块的独立与联合作用,逐层推动ARI指标提升。参数敏感性分析发现,mask率、融合步数、lambda超参数均有最优区间,配置合理可大幅提升整体性能。
结论、意义与亮点
科学与应用价值
MAEST以面向空间转录组高缺失、高噪音的本质属性,用创新性图掩码自编码器、节点对比学习和多尺度特征融合突破传统聚类方法瓶颈,实现了空间组织结构从粗到细的精准分区,极大丰富了基于空间组学的生物学发现工具箱。其通用性高,可适配多平台、多物种、多组织类型、多切片水平方向,不仅可服务于基础结构/功能分区标注,也为疾病微环境分析、发育时空动力学、肿瘤组织异质性研究等提供坚实算法基石,未来应用前景广阔。
技术创新与独特性
- 创新性图掩码自编码器:通过深度神经网络的自监督学习机制,在空间邻接图内实现去噪、重构,并有效防止特征塌陷。
- 节点对比判别模块:补足自编码器局部信息采集能力,促进表征空间均匀分布,显著增强模型鲁棒性。
- 一跳+多跳信息融合:多尺度特征聚合,有效提升对复杂长期空间依赖关系的刻画能力。
- 无监督端到端泛化能力:流程无需人工特征设计或监督标签指导,适合大规模、多样化空间组学工程。
研究亮点与特殊贡献
- 优异的跨平台、跨物种通用与鲁棒性,适配多类型空间组学实测数据;
- 在高缺失高噪音背景下表现领先,为实际生物样本复杂场景提供强力支撑;
- 首次实现多切片水平方向自然一致性拼接,为空间整合开辟新途径;
- 多种聚类算法和40随机种子下表现稳定,具备高度可扩展性与可复制性。
其它信息与后续展望
本文已向社区开放完整源代码及流程,全链路支持可追溯性。虽在部分边界微小结构域识别上仍留改进空间(如边缘细胞点的混淆、极小结构区域的划分),但为后续高分辨率空间生物信息学研究奠定了坚实基础。团队已计划将聚焦于更高分辨率和更边界定义的空间结构域识别,以及跨平台数据的更深度整合研究。
MAEST工作的发表,彰显了中国计算与生命科学交叉领域在空间转录组前沿算法创新与应用推广上的综合实力,为“组学+空间”强关联下的组织生物学、疾病机理学及精准医学等领域带来广阔想象空间。