主要作者及机构
本研究的核心团队由来自加州大学旧金山分校(University of California, San Francisco)神经病学系的Alex J. Lee、Alma Dubuc和Reza Abbasi-Asl(通讯作者)领衔,联合艾伦脑科学研究所(Allen Institute for Brain Science)的Michael Kunst、Shenqin Yao等研究人员共同完成。研究于2025年9月10日发表在*Nature Communications*(DOI: 10.1038/s41467-025-64259-4)。
研究领域与动机
本研究属于空间转录组学(Spatial Transcriptomics)与计算神经解剖学的交叉领域。随着高通量空间转录组技术(如MERFISH、Slide-seqV2)的发展,学界已能获取全脑尺度的细胞分子表达空间图谱,但如何从海量数据中自动识别具有生物学意义的精细脑区仍存在两大瓶颈:
1. 计算可扩展性:传统方法(如基于高斯过程或全局聚类)无法处理百万级细胞数据集;
2. 注释依赖性:现有脑区划分(如Allen CCFv3)依赖人工标注,难以发现未分类的亚区结构。
科学目标
研究团队旨在开发一种自监督表示学习框架——CellTransformer,通过融合细胞类型与基因表达信息,实现以下目标:
- 无需先验标注,自动发现小鼠大脑中的空间功能域(Spatial Domains);
- 在多动物、多切片数据中保持区域一致性;
- 扩展到不同空间转录组技术(如MERFISH和Slide-seqV2)。
核心创新:CellTransformer采用编码器-解码器架构的图Transformer网络,通过自监督学习细胞邻域的潜在表征。其关键设计包括:
- 邻域定义:以参考细胞为中心,85 μm为半径的方形区域内所有细胞构成邻域图;
- 特征编码:将基因表达(500或1129个MERFISH探针)与细胞类型(Allen ABC-WMB分类体系)嵌入384维空间;
- 注意力机制:通过Transformer层动态建模细胞间相互作用,最后聚合为邻域表征向量。
训练策略:模型通过预测中心细胞的基因表达(负二项分布损失函数)进行端到端训练,无需人工标注。
数据集:
- Allen 1数据集:53张冠状切片,370万细胞,500基因MERFISH;
- Zhang et al.数据集:4只小鼠的239张切片(冠状/矢状),650万细胞,1129基因MERFISH;
- Macosko 1数据集:Slide-seqV2技术,101切片,480万细胞。
实验流程:
1. 邻域嵌入生成:对每个细胞的局部邻域计算CellTransformer嵌入;
2. 跨切片聚类:使用GPU加速的k-means(CUML库)对所有切片嵌入联合聚类;
3. 稳定性评估:通过20次重复聚类计算Amari距离,确定最优域数量(k=1300);
4. 生物学验证:对比Allen CCFv3注释,分析差异表达基因与细胞类型分布。
为验证CellTransformer优势,研究对比了以下方法:
- CellCharter:基于多尺度嵌入的空间聚类;
- SPIRAL:图神经网络整合方法;
- 传统k-means:直接对基因表达或细胞类型计数聚类。
在Allen 1数据集中,CellTransformer发现的区域与CCFv3annotations高度一致:
- 粗粒度(k=25):重现了大脑分区(如皮层、纹状体);
- 中粒度(k=354):识别出运动皮层第4层(传统认为小鼠缺乏该层);
- 细粒度(k=670):发现皮层亚层(如体感皮层中的深层-浅层分化)。
数据支持:与CCF相比,细胞类型组成相关性达0.853(Pearson),空间连续性提高58.2%(相比CellCharter)。
在CCF未细分的脑区中,CellTransformer揭示了新亚区:
- 海马下托(Subiculum):三层结构(分子层、锥体细胞层、多形层)与Ding et al. (2025)的转录组研究一致;
- 上丘(Superior Colliculus):感觉区(带状层、浅灰质层、视层)和运动区(中间灰质/白质的侧-内侧分化),与Benavidez et al. (2023)的投射图谱对应;
- 中脑网状核(Midbrain Reticular Nucleus):发现背-腹侧梯度分布的谷氨酸能神经元亚群。
补充发现
- 技术兼容性:模型对基因面板大小(500 vs. 1129基因)和切片方向(冠状/矢状)均表现稳健;
- 生物学见解:上丘中间层的Pitx2+神经元富集域与既往标记物研究吻合,佐证了数据驱动的生物学相关性。