分享自:

基于对比学习的质谱成像数据聚类

期刊:Chemical ScienceDOI:10.1039/d1sc04077d

学术报告:基于对比学习的质谱成像数据自主聚类方法

作者与发表信息

本研究的通讯作者为Julia Laskin(普渡大学化学系,邮箱:jlaskin@purdue.edu),第一作者为Hang Hu(普渡大学)。合作作者包括Jyothsna Padmakumar Bindu(普渡大学工程技术学院)。研究以《Clustering of mass spectrometry imaging data using contrastive learning》为题,于2021年11月26日发表在Chemical Science(边缘文章,开放获取),2022年1月刊载(第13卷,90–98页)。英国皇家化学学会(RSC)承担了出版费用。


学术背景

研究领域与问题

质谱成像(Mass Spectrometry Imaging, MSI)是一种无需标记的分子成像技术,可同时对生物样本中多种生物分子(如脂质、代谢物、蛋白质)进行高灵敏度、高特异性的空间定位。随着技术进步,MSI数据量激增,但数据分析的瓶颈在于分子共定位(colocalization)的自动化识别。传统方法依赖人工标注或基于图像向量的相似性计算,但前者效率低,后者对噪声敏感且无法捕捉高阶空间特征。

研究目标

本研究提出了一种自监督对比学习框架,用于MSI数据的自动化聚类,旨在解决以下问题:
1. 小数据问题:MSI数据量不足以训练传统深度神经网络。
2. 标注缺失:避免人工标注的主观性和耗时性。
3. 噪声鲁棒性:提升对实验噪声和强度差异的容忍度。


研究方法与流程

1. 自监督对比学习(SimCLR框架)

  • 数据增强:通过高斯模糊(Gaussian blur)、高斯噪声(Gaussian noise)、强度扭曲(intensity distortion)外观变换生成增强图像,保留空间分布特征的同时提升模型泛化能力。几何变换(如旋转)因破坏分子分布模式而被排除。
  • 对比损失(contrastive loss):在潜在空间中最大化同一图像增强对的相似性,最小化不同图像对的相似性。
  • 基准数据集:使用小鼠子宫组织纳米电喷雾解吸电离(nano-DESI)MSI数据(367张离子图像,96×96像素,手动标注为13类),验证增强策略的有效性。

2. 图像聚类与表示学习

  • 编码器:采用EfficientNet-B0(预训练于ImageNet),通过对比学习微调。
  • 谱聚类(Spectral Clustering, SC):基于k近邻图(k=10)对学习到的表征进行无监督聚类。
  • 自标注(Self-labeling):利用高置信度分类结果(SoftMax概率阈值≥0.9)迭代优化编码器和线性分类器。

3. 性能评估

  • 指标:分类准确率(benchmark数据集)、同位素召回率(isotopic recall,用于未标注的小鼠脑组织MALDI-MSI数据,1101张图像,224×224像素)。
  • 对比方法:与传统图像向量方法(如余弦相似性)比较,验证CNN特征对噪声的鲁棒性。

工具开发


主要结果

1. 对比学习的优化效果

  • 数据增强组合使线性评估准确率提升至>80%(图2b)。
  • t-SNE可视化显示,微调后的编码器显著改善表征的类内紧密度和类间分离度(图2c-d)。
  • 同位素召回率从预训练模型的75.4%提升至92.1%(图5d),证实模型能精准识别共定位分子。

2. 自监督聚类的优势

  • 噪声容忍:如图4所示,CNN特征能正确区分空间分布相似但强度差异显著的离子(如m/z 875.5700与868.5243),而传统向量方法失效。
  • 无标注适应性:小鼠脑组织数据聚类为35组,展示多样分子分布模式(图5a),且无需人工干预。

3. 方法普适性

  • 适用于不同组织(子宫、脑)、成像技术(nano-DESI、MALDI)和分辨率(96×96至224×224像素)。

结论与意义

科学价值

  1. 方法论创新:首次将对比学习引入MSI领域,解决了小数据场景下的表征学习难题。
  2. 技术突破:通过外观增强策略自标注微调,实现了对高阶空间特征的自动化提取。
  3. 应用扩展:为空间脂质组学、代谢组学和蛋白质组学的高通量分析提供工具支持。

应用前景

  • 生物医学研究:加速生物标志物发现和药物开发中的分子共定位分析。
  • 多模态拓展:框架可适配拉曼或红外显微成像等其他化学成像技术。

研究亮点

  1. 领域适配性:针对MSI数据特性设计专属增强策略,避免几何变换的干扰。
  2. 全自动化:从表征学习到聚类无需人工标注,显著提升分析效率。
  3. 开源共享:代码与数据集公开,推动社区协作。

补充价值

  • 研究发现:对齐(alignment)与均匀性(uniformity)的平衡是表征学习的关键(图S4),训练50周期后性能饱和。
  • 数据声明:小鼠脑数据集可从Metaspace平台获取(https://metaspace2020.eu)。

(字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com