本研究由俄罗斯科学院Zelinsky有机化学研究所的Daniil A. Boiko、Konstantin S. Kozlov、Julia V. Burykina、Valentina V. Ilyushenkova和通讯作者Valentine P. Ananikov*共同完成,于2022年8月8日发表在《Journal of the American Chemical Society》期刊上(J. Am. Chem. Soc. 2022, 144, 14590-14606)。
该研究属于分析化学与计算化学交叉领域,针对高分辨质谱(High-Resolution Mass Spectrometry, MS)数据分析中的核心挑战:复杂混合物中的完全信号分配问题。虽然质谱是分析复杂混合物最强大的方法之一,但传统方法只能解释约20%的代谢物信号,约80%的反应混合物信号未被解读。这主要是因为: 1) 超高灵敏度导致非常复杂的质谱图 2) 单个分子产生多个同位素峰(isotopologues)形成的”同位素分布” 3) 多电荷状态和加合物的存在 4) 传统方法依赖数据库搜索且需要预先定义可能元素
研究团队旨在开发一种无需预设元素约束、能自动分析整个质谱的全新框架MEDUSA(Machine Learning-Enabled Deisotoping and Untargeted Spectra Analysis),通过机器学习算法解决长期存在的反谱问题(inverse spectral problem)。
研究主要包括以下关键步骤:
将去同位素峰(deisotoping)任务构建为二元分类问题: - 训练数据:基于PubChem子集生成的合成光谱数据(300万分子式) - 算法比较:线性模型(规则基础方法)与梯度提升决策树(tree ensemble)模型 - 特征构建:峰对之间的质量差异、强度比等特征 - 性能评估:F1分数0.9972 vs 0.9920(优于线性模型),ROC AUC接近1.0
开发基于LSTM(长短期记忆网络)的神经网络: - 输入表示:将同位素分布表示为围绕每个聚集同位素变体(aggregated isotopic variants)的子光谱向量 - 数据增强:使用洛伦兹滤波卷积,随机位移、噪声和缩放 - 架构优化:双向LSTM表现最佳(ROC AUC 0.93) - 特殊挑战:单同位素元素(如碘、氟)识别准确度较低(ROC AUC 0.590-0.615)
使用改进的LSTM架构: - 标准化策略:对稀有元素进行目标值标准化处理 - 预测方式:直接预测分子式中各元素的原子数量 - 表现评估:碳原子数预测R²=0.994,RMSE=2.20
将三步分析流程整合: 1) 去同位素峰(减少光谱复杂性) 2) 神经网络分类缩小元素范围 3) 基于回归预测指导暴力搜索 - 搜索空间缩减效果:对于C29H39N3PdCl+,搜索空间从3.85×10⁵⁵降至1.02×10³
在三个典型系统中验证: 1) 蛋白质测序中的碎片离子分析:牛血清白蛋白(BSA)胰蛋白酶消化产物分析 2) 天然样品分析:20种不同茶样品的水-乙醇提取物(每种三次重复) 3) 交叉偶联催化系统研究:Sonogashira反应混合物中钯配合物分析
在实际Sonogashira反应混合物谱图中,树集成方法相比规则方法能更好地区分不同同位素分布(图2d)。虽然测试集指标提升看似不大(精确度提高0.01),但在实际谱图中能显著减少误合并现象。
在包含15种元素的实验数据集上验证: - 非单同位素元素平均ROC AUC达0.9以上 - 钯配合物iPrPdCl(MeCN)+的离子被准确识别(图3b右) - 数据增强分析显示随机噪声增强对Cu、Br、Pd等元素识别尤为重要
创新性地证明精细同位素结构(fine isotopic structure)包含足够信息: - 碳、氮、氧等常见元素计数预测准确 - 通过梯度分析确认模型建立了”质量亏损”(mass defect)概念(图4c右)
1) 茶样分析:PCA分析成功区分绿茶、乌龙茶和黑茶,发现m/z 585/601和586/602两组相关离子 2) 蛋白质测序:开发了基于碎片离子同位素分布匹配的de novo测序方法 3) 催化反应监测:在Sonogashira反应中鉴定出67种钯配合物,与催化剂/炔烃混合物的48种形成对比
该研究提出了解决无约束质谱分析的全新范式: 1. 方法论创新:将质谱解释问题重构为去同位素峰、神经网络搜索空间缩减和暴力搜索三步流程 2. 技术突破:首次实现对2kDa以下分子的全自动无约束分析 3. 软件贡献:开发并开源MEDUSA Python软件包,整合所有算法和可视化工具
研究价值体现在: - 科学价值:验证精细同位素结构包含足够化学信息,解决了长期存在的反谱问题 - 应用价值:可应用于代谢组学、蛋白质组学、催化剂研究等多个领域 - 数据价值:公开了合成的训练数据集和实验FT-ICR MS数据集(mzXML格式)
该研究为质谱数据分析提供了全新范式,通过机器学习有效解决了复杂混合物分析的长期挑战,将显著提升质谱在化学和生命科学领域的研究效率。