基于对比学习的质谱成像数据聚类

分享自：
基于对比学习的质谱成像数据聚类

医学
生物医学工程
期刊:Chemical ScienceDOI:10.1039/d1sc04077d
【点击此处】阅读全文、收藏及针对性提问
学术报告：基于对比学习的质谱成像数据自主聚类方法作者与发表信息本研究的通讯作者为Julia Laskin（普渡大学化学系，邮箱：jlaskin@purdue.edu），第一作者为Hang Hu（普渡大学）。合作作者包括Jyothsna Padmakumar Bindu（普渡大学工程技术学院）。研究以《Clustering of mass spectrometry imaging data using contrastive learning》为题，于2021年11月26日发表在Chemical Science（边缘文章，开放获取），2022年1月刊载（第13卷，90–98页）。英国皇家化学学会（RSC）承担了出版费用。
学术背景研究领域与问题质谱成像（Mass Spectrometry Imaging, MSI）是一种无需标记的分子成像技术，可同时对生物样本中多种生物分子（如脂质、代谢物、蛋白质）进行高灵敏度、高特异性的空间定位。随着技术进步，MSI数据量激增，但数据分析的瓶颈在于分子共定位（colocalization）的自动化识别。传统方法依赖人工标注或基于图像向量的相似性计算，但前者效率低，后者对噪声敏感且无法捕捉高阶空间特征。
研究目标本研究提出了一种自监督对比学习框架，用于MSI数据的自动化聚类，旨在解决以下问题：
 1. 小数据问题：MSI数据量不足以训练传统深度神经网络。
 2. 标注缺失：避免人工标注的主观性和耗时性。
 3. 噪声鲁棒性：提升对实验噪声和强度差异的容忍度。
研究方法与流程1. 自监督对比学习（SimCLR框架）数据增强：通过高斯模糊（Gaussian blur）、高斯噪声（Gaussian noise）、强度扭曲（intensity distortion）等外观变换生成增强图像，保留空间分布特征的同时提升模型泛化能力。几何变换（如旋转）因破坏分子分布模式而被排除。
 
对比损失（contrastive loss）：在潜在空间中最大化同一图像增强对的相似性，最小化不同图像对的相似性。
 
基准数据集：使用小鼠子宫组织纳米电喷雾解吸电离（nano-DESI）MSI数据（367张离子图像，96×96像素，手动标注为13类），验证增强策略的有效性。
 
2. 图像聚类与表示学习编码器：采用EfficientNet-B0（预训练于ImageNet），通过对比学习微调。
 
谱聚类（Spectral Clustering, SC）：基于k近邻图（k=10）对学习到的表征进行无监督聚类。
 
自标注（Self-labeling）：利用高置信度分类结果（SoftMax概率阈值≥0.9）迭代优化编码器和线性分类器。
 
3. 性能评估指标：分类准确率（benchmark数据集）、同位素召回率（isotopic recall，用于未标注的小鼠脑组织MALDI-MSI数据，1101张图像，224×224像素）。
 
对比方法：与传统图像向量方法（如余弦相似性）比较，验证CNN特征对噪声的鲁棒性。
 
工具开发开源代码发布于GitHub（https://github.com/lablaskin/msi-self-supervised-clustering），支持自主复现。
 
主要结果1. 对比学习的优化效果数据增强组合使线性评估准确率提升至>80%（图2b）。
 
t-SNE可视化显示，微调后的编码器显著改善表征的类内紧密度和类间分离度（图2c-d）。
 
同位素召回率从预训练模型的75.4%提升至92.1%（图5d），证实模型能精准识别共定位分子。
 
2. 自监督聚类的优势噪声容忍：如图4所示，CNN特征能正确区分空间分布相似但强度差异显著的离子（如m/z 875.5700与868.5243），而传统向量方法失效。
 
无标注适应性：小鼠脑组织数据聚类为35组，展示多样分子分布模式（图5a），且无需人工干预。
 
3. 方法普适性适用于不同组织（子宫、脑）、成像技术（nano-DESI、MALDI）和分辨率（96×96至224×224像素）。
 
结论与意义科学价值方法论创新：首次将对比学习引入MSI领域，解决了小数据场景下的表征学习难题。
 
技术突破：通过外观增强策略和自标注微调，实现了对高阶空间特征的自动化提取。
 
应用扩展：为空间脂质组学、代谢组学和蛋白质组学的高通量分析提供工具支持。
 
应用前景生物医学研究：加速生物标志物发现和药物开发中的分子共定位分析。
 
多模态拓展：框架可适配拉曼或红外显微成像等其他化学成像技术。
 
研究亮点领域适配性：针对MSI数据特性设计专属增强策略，避免几何变换的干扰。
 
全自动化：从表征学习到聚类无需人工标注，显著提升分析效率。
 
开源共享：代码与数据集公开，推动社区协作。
 
补充价值研究发现：对齐（alignment）与均匀性（uniformity）的平衡是表征学习的关键（图S4），训练50周期后性能饱和。
 
数据声明：小鼠脑数据集可从Metaspace平台获取（https://metaspace2020.eu）。
 
（字数：约2000字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问