分享自:

基于深度学习的质谱成像数据去噪方法DE-MSI研究

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.5c02946

基于深度学习的质谱成像数据降噪方法DE-MSI研究进展

一、作者团队与发表信息
本研究由Lei Guo(福州大学/香港浸会大学)、Chengyi Xie、Xin Diao等组成的联合团队完成,通讯作者为香港浸会大学Zongwei Cai教授与厦门大学Jiyang Dong教授。研究成果发表于分析化学领域权威期刊《Analytical Chemistry》(2025年9月,第97卷)。

二、学术背景与研究目标
质谱成像(Mass Spectrometry Imaging, MSI)是一种无标记技术,可直观显示生物样本中数千种分子的空间分布,在药物开发、临床研究等领域具有重要应用。然而,MSI数据中存在复杂的噪声模式(如泊松噪声、随机缺失值),且难以获取无噪声的真实数据作为监督信号,导致现有降噪方法(如高斯滤波、小波降噪)常因假设过于简单而效果受限。

研究团队提出DE-MSI(Deep Learning-based Data Denoising for MSI),旨在通过结合质谱化学先验知识,构建无需真实数据的深度学习模型,提升MSI数据质量。其核心创新在于利用同位素离子(isotopic ions)与单同位素离子(monoisotopic ions)的天然丰度关系,构建自监督训练数据集,突破传统降噪方法依赖人工假设的瓶颈。

三、研究方法与技术流程
1. 数据准备与预处理
- 样本类型
- 小鼠胚胎(MALDI-MSI,像素尺寸100 μm)
- 小鼠脑(MALDI-MSI,5 μm高分辨率)
- 大鼠脑(DESI-MSI,100 μm)
- 预处理步骤:峰检测(SCiLS Lab软件)、峰对齐、热斑去除、TIC归一化,最终生成三维矩阵M(X×Y×H),X/Y为空间像素,H为m/z维度。

  1. 训练数据集构建

    • 利用自主开发的DeepIso工具(或MetaSpace/RMSI)识别同位素-单同位素离子对({I_iso, I_monoiso})。
    • 化学原理:单同位素离子强度理论上应与其同位素变体空间分布一致,但后者因强度低更易受噪声干扰,从而可将其作为“噪声输入-伪真实输出”对。
  2. 深度学习模型设计

    • 网络架构:基于U-Net的轻量化设计(参数总量310.4M),包含编码器-解码器结构:
      • 编码器:3×3卷积层+ReLU+最大池化,通道数从64递增至1024。
      • 解码器:双线性上采样+跳跃连接(skip connection),保留高频细节。
    • 损失函数:平均绝对误差(MAE)计算输出(I_denoised)与伪真实(I_monoiso)的差异。
    • 训练参数:Adam优化器(学习率0.005),20,000次迭代,批次大小256(NVIDIA GTX 4090 GPU)。
  3. 模型验证与评估

    • 定性评估:对比高斯滤波、小波降噪,观察器官(如脑、肝脏)内分子分布的连续性与边界清晰度。
    • 定量评估
      • 模拟噪声:向原始数据添加泊松噪声和20%随机缺失值。
      • 指标:PSNR(峰值信噪比)和SSIM(结构相似性),DE-MSI分别达18.93±1.87和0.74±0.05,优于基线方法。

四、主要研究结果
1. 小鼠胚胎数据
- DE-MSI在m/z 603.1546(脑/软骨高表达)和m/z 909.5437(肝脏高表达)的图像中,有效修复了不连续信号,且未损失分辨率(图3)。传统方法则出现过度平滑(高斯滤波)或高频信息丢失(小波降噪)。

  1. 高分辨率小鼠脑数据

    • 在5 μm像素下,DE-MSI显著减少了颗粒细胞层(DG-sg)、胼胝体(CC)等区域的像素丢失(图5),同时保持亚细胞级结构(如CA1sp层锥体神经元)的清晰度。
  2. DESI-MSI数据适配性

    • 大鼠脑数据中,DE-MSI成功修复谷胱甘肽(m/z 306.0766)和海马区PS 34:1(m/z 760.5140)的空间断裂分布(图6),验证其对不同电离源的普适性。

五、研究结论与价值
1. 科学价值
- 首次通过化学先验知识构建自监督训练集,解决了MSI领域缺乏真实数据的难题。
- U-Net架构的局部-全局特征融合能力,平衡了噪声去除与细节保留的矛盾。

  1. 应用前景
    • 单细胞代谢组学:5 μm分辨率下的降噪能力支持单细胞水平分析。
    • 跨平台兼容性:适用于MALDI、DESI等多种电离技术,可推广至SIMS等超分辨MSI。

六、研究亮点
1. 方法论创新:提出“同位素对伪监督”范式,为无监督学习在MSI中的应用提供新思路。
2. 技术突破:轻量化U-Net设计实现586张图像仅1.92秒的推理速度,满足实际需求。
3. 数据多样性:涵盖胚胎、脑组织及不同分辨率/电离源,验证方法鲁棒性。

七、局限性与展望
当前DE-MSI对低丰度污染物(非高分辨质谱)的敏感性有待提升,未来拟结合MS/MS验证优化离子配对准确性。代码与数据集已开源(GitHub: ganklei-x/de-msi),推动领域协作。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com