小分子质谱分析中的机器学习

分享自：
小分子质谱分析中的机器学习

期刊:annual review of analytical chemistryDOI:10.1146/annurev-anchem-071224-082157
基于机器学习的串联质谱数据分析：推动小分子鉴定与表征的革命
作者与发表信息 本文由印第安纳大学布卢明顿分校卢迪信息学、计算与工程学院（Luddy School of Informatics, Computing, and Engineering, Indiana University Bloomington）的Yuhui Hong， Yuzhen Ye和Haixu Tang合作撰写，发表于《Annual Review of Analytical Chemistry》2025年第18卷。文章于2025年2月27日以预印本形式在线发布，是机器学习在小分子质谱领域应用的一篇系统性综述。
论文主题与核心观点 本文聚焦于机器学习（Machine Learning， ML）如何变革小分子串联质谱（Tandem Mass Spectrometry， MS/MS）分析领域。文章的核心论点是：面对传统方法因参考谱库不完整和数据处理复杂所带来的局限性，机器学习技术正通过三大关键方向重塑小分子质谱分析范式：1）预测MS/MS谱图及相关理化性质以扩展参考谱库；2）通过自动模式提取改进谱图匹配；3）直接从MS/MS谱图预测化合物分子结构。全文围绕这一核心论点，系统阐述了实现这些目标所需的基础技术、具体应用、当前进展以及未来挑战。
主要观点阐述
1. 分子与质谱数据的有效表征是机器学习应用的基础 文章首先强调，高效的小分子和质谱数据表征是应用机器学习方法的前提。对于小分子，其表征学习（Molecular Representation Learning， MRL）经历了从传统分子描述符（如拓扑极性表面积、Wiener指数）和指纹（如扩展连通性指纹， ECFP），到基于字符串（如SMILES， SELFIES）的序列模型，再到基于分子图（Graph）和三维（3D）构象的图神经网络（Graph Neural Network， GNN）和消息传递神经网络（Message-Passing Neural Network， MPNN）的演进。特别是几何完备的模型，如DimeNet++和ComENet，能够编码完整的分子三维几何信息（原子类型、位置、键长、键角、二面角），为更精确的谱图预测提供了可能。对于MS/MS谱图，则主要采用两种表示方法：峰值列表（即m/z-强度对序列）和稀疏的向量化谱图（binned vector）。针对不同表征，发展了相应的神经网络架构，例如长短期记忆网络（LSTM）和Transformer适用于序列数据，而多层感知机（MLP）、卷积神经网络（CNN）和时间卷积网络（TCN）则适用于向量化数据。
2. 先进的机器学习策略提升了模型的泛化与学习能力 文章指出，除了模型架构，学习策略对于在小分子质谱这种数据标注成本高、实验条件多样的领域取得成功至关重要。文中重点介绍了三种策略： * 自监督学习（Self-Supervised Learning， SSL）：利用化学数据库或大规模质谱库中的无标签数据对分子表征模型进行预训练，学习通用的分子特征。具体策略包括基于分子子结构的motif学习、针对3D分子几何的去噪距离匹配（SE(3)-invariant distance matching）以及分子图重构。这有助于提升下游任务（如性质预测）的性能，尤其在标注数据有限时。 * 迁移学习（Transfer Learning， TL）：将在源任务（如MS/MS谱图预测）上训练好的模型知识，迁移到目标任务（如保留时间或碰撞截面积预测）上，通过微调（fine-tuning）等方式快速适应新任务或新实验条件。这种策略解决了特定实验条件下数据稀缺的问题，增强了模型的适用性。 * 多任务学习（Multitask Learning， MTL）：设计一个共享特征提取器的模型，同时学习多个相关任务（如同时预测MS/MS谱图、保留时间和碰撞截面积）。通过共享底层特征，MTL可以增强模型的泛化能力，但目前在小分子质谱领域尚未得到充分探索。
3. 从小分子到谱图与理化性质的预测：扩展参考谱库 这是机器学习应用的核心领域之一。文章详细分类并介绍了预测MS/MS谱图的两类主要方法： * 端到端预测方法：模型直接输入分子表征，输出向量化的预测谱图。例如，NEIMS使用ECFP和MLP进行预测；MassFormer采用图Transformer模型处理分子图；3DmolMS则创新性地使用基于3D分子构象的点云网络（Point Cloud Network），通过元素卷积（3DmolConv）学习原子间的距离和角度信息，实现了更准确的谱图预测，并展示了其模型在迁移学习到保留时间（Retention Time， RT）和碰撞截面积（Collision Cross Section， CCS）预测任务上的潜力。 * 两步预测方法：首先生成候选碎片离子，再预测其强度。例如，CFM-ID 4.0结合手工整理的碎片化规则和概率生成模型；SCARF使用神经网络和前缀树（Prefix Tree）结构自回归地预测碎片离子的化学式；Iceberg则在分子图上通过预测键断裂概率来生成碎片子图。这类方法理论上能产生更高分辨率的谱图，但其准确性受限于碎片生成步骤的完备性，可能遗漏复杂的重排反应。 文章进一步综述了RT和CCS预测的研究进展。RT预测模型从基于分子描述符的传统ML算法（如随机森林、支持向量机）发展到基于GNN（如GNN-RT， DeepGCN-RT）和结合指纹与图注意力的Transformer模型（RT-Transformer）。CCS预测则从支持向量回归（SVR）模型（如MetCCS， AllCCS）发展到基于SMILES的CNN（DeepCCS）、基于分子图的GNN（SigmaCCS）以及融合多种特征（质谱特征、描述符、图特征）的MLP模型（AllCCS2）。这些理化性质的预测结果可作为多维匹配的补充信息，显著提高小分子鉴定的准确性和可靠性。
4. 从质谱数据到小分子结构：突破参考谱库限制 文章探讨了机器学习在直接从小分子MS/MS谱图推断其化学信息方面的前沿应用，主要分为化学式预测和碎片离子标注。 * 化学式预测：介绍了两种主流策略。自上而下方法以SIRIUS为代表，它首先基于高分辨率MS1的精确质量和同位素模式匹配，在全候选化学式空间中进行筛选，然后通过构建碎片化树（Fragmentation Tree）和整数线性规划（Integer Linear Programming， ILP）优化，结合机器学习排序算法，最终确定最可能的分子式。自下而上方法以BUDDY为代表，其创新之处在于优先利用MS/MS谱图信息。它通过拼接碎片离子和中性损失的化学式来构建候选分子式，极大地缩小了搜索空间，然后利用机器学习排序模型（整合了38个MS1和MS/MS相关特征）进行评分，并通过全局优化和图算法进一步精炼注释，最后采用Platt校准来估计假发现率（False Discovery Rate， FDR）。这两种方法代表了不同的解决思路，各有优势。 * 碎片离子标注：目前该任务仍主要依赖基于规则或组合的方法（如MetFrag， SIRius的碎片化树， Iceberg的规则生成），机器学习在该领域的应用潜力巨大但尚未充分开发。关键在于如何从MS/MS谱图中有效学习复杂的碎片化规律。
5. 未来展望：挑战与机遇并存 文章在最后总结了当前面临的挑战和未来的研究方向： * 应对实验多样性：不同仪器、碎裂方法和实验条件产生的数据差异是模型泛化的主要障碍。迁移学习被视为解决这一问题的关键策略，能够利用大规模通用数据集预训练模型，再针对特定条件进行微调。 * 迈向多模态分析：整合来自不同分析技术（如LC-MS， IMS-MS）的数据，或结合额外的分子与生物信息，构建多模态机器学习模型，有望为MS/MS评分和化合物鉴定提供更全面的视角和更高的准确性。 * 实现“圣杯”目标：直接从MS/MS谱图通过ab initio（从头计算）机器学习方法预测小分子的完整二维结构，是质谱领域的终极目标之一。这有望突破对庞大参考谱库的依赖，直接鉴定“暗物质”化合物，从而彻底改变小分子发现与鉴定的范式。
论文的意义与价值 本综述系统地梳理和整合了机器学习在小分子质谱领域，特别是化合物表征与鉴定方面的最新进展、技术方法和核心思想。它不仅为领域内的研究人员提供了一份全面的技术路线图和参考文献指南，清晰地展示了从数据表征、学习策略到具体预测任务的完整技术链条，而且通过指出当前方法的局限性和未来的研究方向（如迁移学习、多模态融合、ab initio结构预测），为后续研究提供了清晰的指引。文章强调，这些机器学习方法的持续发展将极大提升小分子分析的效率和准确性，深化对生物过程的理解，并最终助力新型诊断和治疗工具的研发，具有重要的科学意义和应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问