分享自:

基于Transformer的小鼠大脑精细区域发现方法

期刊:nature communicationsDOI:10.1038/s41467-025-64259-4

基于Transformer的小鼠大脑精细区域数据驱动发现研究

主要作者及机构
本研究的核心团队由来自加州大学旧金山分校(University of California, San Francisco)神经病学系的Alex J. Lee、Alma Dubuc和Reza Abbasi-Asl(通讯作者)领衔,联合艾伦脑科学研究所(Allen Institute for Brain Science)的Michael Kunst、Shenqin Yao等研究人员共同完成。研究于2025年9月10日发表在*Nature Communications*(DOI: 10.1038/s41467-025-64259-4)。


学术背景

研究领域与动机
本研究属于空间转录组学(Spatial Transcriptomics)与计算神经解剖学的交叉领域。随着高通量空间转录组技术(如MERFISH、Slide-seqV2)的发展,学界已能获取全脑尺度的细胞分子表达空间图谱,但如何从海量数据中自动识别具有生物学意义的精细脑区仍存在两大瓶颈:
1. 计算可扩展性:传统方法(如基于高斯过程或全局聚类)无法处理百万级细胞数据集;
2. 注释依赖性:现有脑区划分(如Allen CCFv3)依赖人工标注,难以发现未分类的亚区结构。

科学目标
研究团队旨在开发一种自监督表示学习框架——CellTransformer,通过融合细胞类型与基因表达信息,实现以下目标:
- 无需先验标注,自动发现小鼠大脑中的空间功能域(Spatial Domains);
- 在多动物、多切片数据中保持区域一致性;
- 扩展到不同空间转录组技术(如MERFISH和Slide-seqV2)。


研究方法与流程

1. 模型架构设计

核心创新:CellTransformer采用编码器-解码器架构的图Transformer网络,通过自监督学习细胞邻域的潜在表征。其关键设计包括:
- 邻域定义:以参考细胞为中心,85 μm为半径的方形区域内所有细胞构成邻域图;
- 特征编码:将基因表达(500或1129个MERFISH探针)与细胞类型(Allen ABC-WMB分类体系)嵌入384维空间;
- 注意力机制:通过Transformer层动态建模细胞间相互作用,最后聚合为邻域表征向量。

训练策略:模型通过预测中心细胞的基因表达(负二项分布损失函数)进行端到端训练,无需人工标注。

2. 数据处理与实验设计

数据集
- Allen 1数据集:53张冠状切片,370万细胞,500基因MERFISH;
- Zhang et al.数据集:4只小鼠的239张切片(冠状/矢状),650万细胞,1129基因MERFISH;
- Macosko 1数据集:Slide-seqV2技术,101切片,480万细胞。

实验流程
1. 邻域嵌入生成:对每个细胞的局部邻域计算CellTransformer嵌入;
2. 跨切片聚类:使用GPU加速的k-means(CUML库)对所有切片嵌入联合聚类;
3. 稳定性评估:通过20次重复聚类计算Amari距离,确定最优域数量(k=1300);
4. 生物学验证:对比Allen CCFv3注释,分析差异表达基因与细胞类型分布。

3. 对比基线

为验证CellTransformer优势,研究对比了以下方法:
- CellCharter:基于多尺度嵌入的空间聚类;
- SPIRAL:图神经网络整合方法;
- 传统k-means:直接对基因表达或细胞类型计数聚类。


主要研究结果

1. 多尺度脑区划分

在Allen 1数据集中,CellTransformer发现的区域与CCFv3annotations高度一致:
- 粗粒度(k=25):重现了大脑分区(如皮层、纹状体);
- 中粒度(k=354):识别出运动皮层第4层(传统认为小鼠缺乏该层);
- 细粒度(k=670):发现皮层亚层(如体感皮层中的深层-浅层分化)。
数据支持:与CCF相比,细胞类型组成相关性达0.853(Pearson),空间连续性提高58.2%(相比CellCharter)。

2. 未注释区域的发现

在CCF未细分的脑区中,CellTransformer揭示了新亚区:
- 海马下托(Subiculum):三层结构(分子层、锥体细胞层、多形层)与Ding et al. (2025)的转录组研究一致;
- 上丘(Superior Colliculus):感觉区(带状层、浅灰质层、视层)和运动区(中间灰质/白质的侧-内侧分化),与Benavidez et al. (2023)的投射图谱对应;
- 中脑网状核(Midbrain Reticular Nucleus):发现背-腹侧梯度分布的谷氨酸能神经元亚群。

3. 跨模态与跨动物泛化

  • 跨技术验证:在Slide-seqV2数据中(5019基因),调整后的模型成功识别皮层分层;
  • 跨动物一致性:在4只小鼠数据中,93.3%的域(k=630)在所有个体中重复出现(图6b)。

研究结论与价值

科学意义

  1. 方法学突破:CellTransformer首次实现了百万级细胞数据的自监督空间域发现,计算效率远超传统方法(避免构建TB级距离矩阵)。
  2. 神经解剖学启示:数据驱动的精细分区挑战了现有脑图谱的完备性,如纹状体中CRYM+星形胶质细胞群体的空间异质性。

应用潜力

  • 跨研究整合:为多实验室、多模态数据(如连接组学、fMRI)提供统一空间参考框架;
  • 疾病研究:可应用于神经退行性疾病的区域特异性分子变化分析。

研究亮点

  1. 算法创新:首次将Transformer的瓶颈聚合(Bottleneck Pooling)机制引入空间转录组分析,有效平衡局部与全局特征。
  2. 跨尺度验证:从分子(差异基因)、细胞(类型富集)到系统(跨动物一致性)多维度验证结果可靠性。
  3. 开源工具:代码公开(未在文中提及但符合Nature Communications政策),助力领域标准化分析。

补充发现
- 技术兼容性:模型对基因面板大小(500 vs. 1129基因)和切片方向(冠状/矢状)均表现稳健;
- 生物学见解:上丘中间层的Pitx2+神经元富集域与既往标记物研究吻合,佐证了数据驱动的生物学相关性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com