作者及机构
本研究的通讯作者包括Xiangwen Liao(福州大学)、Jianing Wang和Zongwei Cai(香港浸会大学)以及Jiyang Dong(厦门大学)。第一作者Lei Guo与Chengyi Xie共同贡献了这项工作。研究成果发表在《Analytical Chemistry》2024年96卷第3829-3836页。
质谱成像(Mass Spectrometry Imaging, MSI)是一种高通量分子成像技术,可在组织切片中对数千种生物分子进行空间定位。MSI产生的每个离子图像都描绘了特定离子或离子组的空间分布。共定位(colocalization)是指量化离子图像之间的空间相关性,当来自不同分子的离子图像显示出高度空间相似性时,称为共定位离子。准确识别这些共定位离子对于在生物学背景下解释复杂MSI数据至关重要。
然而,由于MSI数据固有的低信噪比(SNR)以及注释数据集的稀缺性,为每个离子图像实现有效的表征仍然是一个挑战。为解决这一问题,研究者开发了DeepIon模型,这是一种专门用于离子图像表征的新型深度学习方法,可应用于共定位离子和同位素离子的识别。
DeepIon基于对比学习框架,包含四个核心模块:
数据增强模块:设计了MSI特异性数据增强策略,考虑MSI数据特性如离子丰度的泊松分布和缺失值的随机模式。在普通共定位离子(col)模式和同位素离子(iso)模式下采用不同的增强组合。
编码器模块:采用参数共享的双路ResNet18网络,将增强后的离子图像转换为512维表征向量。
投影模块和预测模块:使用多层感知机(MLP)防止优化过程中出现折叠解。
降维模块:使用UMAP算法将表征向量进一步降至20维,便于相似性计算。
样本制备:使用4周龄SD大鼠脑组织,冷冻切片厚度10μm,沉积于ITO镀膜玻片上。采用自制气动辅助电喷雾沉积系统进行基质应用。
数据采集:使用timsTOF flex MALDI-2质谱仪(Bruker Daltonics)在正负离子模式下采集数据,空间分辨率50μm,m/z范围100-2000。获得负离子模式约4.4GB、正离子模式约4.7GB原始数据。
数据预处理:包括峰提取、峰对齐、峰过滤、峰池化、热点去除和归一化等步骤,最终生成离子图像三维矩阵X(m×n×h)。
使用Adam优化器训练,学习率设为0.0003,动量参数β1=0.5,β2=0.99。为防止模型折叠,训练过程中使用停止梯度操作。在大鼠脑组织MSI数据上评估DeepIon识别共定位离子和同位素离子的能力。
以负离子模式为例,对m/z 213.902和m/z 214.047等代表性查询离子进行测试。结果显示DeepIon能准确识别具有相似空间分布的离子组,如m/z 213.902与m/z 215.900、251.877、253.875和249.878的空间共定位关系。
定量评估方面,在包含98个离子图像、分为17个共定位类别的基准数据集上,DeepIon(col模式)分类准确率达86.73%,显著优于SimSiam等对比方法。这一优势主要源于其MSI特异性数据增强策略。
在负离子模式下,DeepIon(iso模式)准确识别出m/z 302.935、699.493、718.534和1544.847等单同位素的相关同位素离子。特别值得注意的是,对于缺失值比例高达88.62%的m/z 1544.8471,仍能正确识别其同位素m/z 1547.8702,这是传统方法(PCC、R2)无法做到的。
定量结果显示,DeepIon在负离子模式下正确识别75.90%的同位素对,正离子模式下达92.76%的准确率。误识别主要发生在潜在同位素离子与基质离子或其他具有相似m/z值的离子重叠时。
DeepIon通过创新的深度学习框架解决了MSI数据中离子图像表征的关键挑战,其核心贡献和价值体现在:
科学价值:证明了对比学习和领域特定数据增强在MSI分析中的有效性。通过模拟MSI数据的泊松分布和缺失模式,显著提升了模型表征能力。
方法论创新:首个针对不同类型离子(普通共定位离子和同位素离子)设计专门模式的深度学习模型。两种模式的灵活切换为不同分析需求提供了定制化解决方案。
应用价值:为代谢物鉴定、生物标志物发现和空间分辨代谢组学提供了强大工具。模型可扩展至拉曼和红外显微镜等其他高光谱化学成像模式。
创新的数据增强策略:结合MSI特有性质(如泊松噪声、随机缺失模式)设计增强方法,显著提升模型性能。
双模式设计:针对普通共定位离子(col)和同位素离子(iso)分别优化,解决了不同类型离子的鉴别难点。
自监督学习框架:避免了对大量注释数据的依赖,使模型更适应实际研究中的”小样本”情况。
优异的低SNR鲁棒性:在信噪比极低、缺失值比例高的情况下仍能保持良好性能,突破了传统方法的局限。