分享自:

基于多体增强扩散的质谱从头分子生成

期刊:Association for the Advancement of Artificial Intelligence

基于质谱数据从头生成分子结构的学术研究报告

一、 研究作者、机构及发表信息

本研究的主要作者为孙曦晨 (Xichen Sun)、魏文韬 (Wentao Wei)、饶佳华 (Jiahua Rao)、谢建聪 (Jiancong Xie) 和杨跃东 (Yuedong Yang)。其中,孙曦晨与魏文韬为并列第一作者,饶佳华与杨跃东为通讯作者。作者团队主要来自中山大学计算机科学与工程学院,部分成员亦隶属于鹏城实验室、深圳湾实验室以及广东省计算科学重点实验室。

根据文档信息,该研究已提交至人工智能领域的国际会议,并计划在2026年由人工智能促进协会 (Association for the Advancement of Artificial Intelligence, AAAI) 出版。文档标识符为 arXiv:2602.01643v1,提交日期为2026年2月2日。

二、 学术背景与研究目标

本研究属于计算化学生物信息学人工智能的交叉领域,具体聚焦于利用串联质谱 (Tandem Mass Spectrometry, MS/MS) 数据实现从头分子结构生成 (de novo molecular generation)

研究背景: 在代谢组学、药物发现和环境化学等领域,准确鉴定未知化合物的分子结构至关重要。串联质谱 (MS/MS) 是一种高通量分析技术,能够通过将分子电离并碎裂,产生包含丰富结构信息的碎片离子谱图,即质谱图。这些质谱图如同分子的“指纹”,可用于推断其化学结构。然而,从复杂的质谱图中直接、自动地推导出完整的分子结构是一个巨大的挑战。现有计算方法大多采用原子中心 (atom-centric) 的建模策略,将分子视为原子的集合,通过预测原子间的连接(键)来生成结构。这种方法存在两个主要局限:首先,它忽略了化学键本身作为关键实体所携带的信息,而质谱中的碎片峰恰恰直接对应于键的断裂事件;其次,质谱中的许多碎片峰源于多个原子和键的协同断裂,即存在多体相互作用 (many-body interactions),而现有的基于图神经网络的方法主要模拟原子间的成对相互作用 (pairwise interaction),难以有效捕捉这种高阶的、非局域的碎裂机制,导致在区分结构异构体 (isomers) 和解析复杂碎裂模式时能力不足。

研究目标: 为了克服上述局限,本研究旨在开发一个能够充分利用质谱中高阶结构信息的新型分子生成框架。具体目标是:1) 从建模层面将焦点从原子转移到化学键(边),采用边中心 (edge-centric) 的分子表示方法;2) 引入多体注意力机制 (many-body attention mechanism),显式地捕捉键与键之间的高阶相互作用,以更好地模拟协同碎裂过程;3) 构建一个端到端的生成模型,能够直接从质谱数据生成准确且化学合理的分子结构,特别是在处理复杂异构体时表现出优越性能。

三、 详细研究流程与方法

本研究提出了一种名为 MBGEN 的框架,其核心是一个多体增强的扩散模型 (many-body enhanced diffusion framework)。整体工作流程包含三个主要阶段:谱图编码器预训练、图解码器预训练以及端到端微调。研究对象为包含分子结构及其对应MS/MS谱图的数据对。

1. 谱图编码器 (Spectrum Encoder) * 方法与对象:研究者采用了一个预训练的 MIST (Mass Spectrometry Inference via Substructure Tokenization) 公式转换器作为谱图编码器。该编码器的输入是一个质谱图 S,由一系列质荷比 (m/z) 和强度 (intensity) 峰值对组成。首先,使用 SIRIUS 工具为每个峰值注释其最可能的分子式。接着,将每个峰值的分子式嵌入向量与其强度值拼接,形成初始特征。 * 处理过程:这些特征被送入一个基于集合注意力 (set transformer) 的编码器。该编码器通过注意力机制建模不同峰值之间的相互作用,其注意力计算不仅考虑峰值本身的特征,还加入了分子式之间的差异信息。最后,通过对所有编码后的峰值表示进行平均池化,得到一个固定维度的、代表整个分子结构指纹的全局特征向量 y。此阶段在 NPLIB1MassSpecGym 两个基准数据集上进行预训练,目标是让编码器学会从原始谱图中提取有意义的分子结构特征。

2. 多体增强图解码器 (Many-Body Enhanced Graph Decoder) 这是本研究的核心创新模块,采用离散扩散模型 (discrete diffusion model) 进行分子图生成。 * 输入与表示:解码器的任务是在给定分子式(固定原子节点集合 H)和谱图编码 y 的条件下,生成分子的边(化学键)集合 E。分子中的键被表示为离散的类别(如单键、双键、无键等)。 * 边中心建模:与以往方法不同,MBGEN 以边(化学键)为中心进行信息传播。首先,根据原子类型初始化节点特征,然后基于相连的节点特征及其关系构建初始的边嵌入表示。 * 多体注意力机制:这是模型的关键组件。在每一层消息传递中,边嵌入的更新分为两步。第一步是节点-边交互,聚合相连节点的信息以及全局谱图特征 y 来更新边特征。第二步是创新的多体注意力模块。该模块在更新边 e_ij(连接原子 i 和 j 的键)时,不仅考虑原子 i 和 j 的信息,还显式地聚合所有与原子 j 相连的邻居键 e_jk 的信息,并通过一个由第三条边 e_ik 计算的门控机制进行调制。这种设计使得模型能够捕捉涉及三个原子 (i, j, k) 的高阶相互作用(即三体相互作用),这对于理解多个键如何协同断裂至关重要。 * 扩散与去噪过程: * 扩散过程:从一个真实的分子图(干净的边矩阵 E0)开始,在 T 个时间步内,逐步向边类型添加离散噪声(例如,以一定概率将特定键变为其他键类型或无键),最终得到一个完全随机的边矩阵 ET。这个过程是固定的前向过程。 * 去噪过程(训练目标):模型需要学习反向过程。给定一个在时间步 t 的噪声图 Gt 和条件特征 y,去噪神经网络 fθ 被训练来预测原始的干净边矩阵 E0。该神经网络的主体即上述包含多体注意力机制的图解码器。 * 生成过程:在生成新分子时,从随机噪声 ET 开始,利用训练好的去噪网络 fθ 逐步预测出更干净的边矩阵 Et-1,迭代进行直至得到最终的分子图 E0。 * 解码器预训练:为了增强解码器在强结构约束下的生成能力,研究者在大规模分子指纹-结构对数据集(约280万对,来自 DSSTox, HMDB, COCONUT, MOSES)上对解码器进行了独立预训练。此时,条件 y 直接使用分子指纹,而非来自谱图编码器,目标是让解码器学会根据结构指纹精确重建分子图。

3. 端到端微调 (End-to-End Finetuning) 在分别预训练好谱图编码器和图解码器后,将两者组合进行端到端联合微调。编码器接收真实的质谱图 S,输出指纹 y;解码器以 y 为条件,从噪声开始重建对应的分子图。整个模型在 NPLIB1 和 MassSpecGym 数据集上训练,目标是使生成的分子图与真实结构对齐。

4. 实验设计与评估 * 基准数据集:使用 NPLIB1MassSpecGym 两个公开基准进行评估。 * 对比方法:与多种先进方法进行比较,包括:Spec2Mol、MIST+NeuralDecipher、MIST+MSNovelist、MADGen、DiffMS 以及 MassSpecGym 基准中的 SMILES Transformer、SELFIES Transformer 和随机化学生成。 * 评估指标:遵循 MassSpecGym 的标准,报告 Top-1Top-10 准确率(生成的候选分子中排名第一/前十包含正确结构的比例)、Tanimoto 相似度(衡量分子指纹相似性)和 最大公共边子结构 (Maximum Common Edge Substructure, MCES) 分数(衡量子结构相似性,值越低表示差异越小,即越好)。所有模型为每个谱图生成100个候选分子。

四、 主要研究结果

1. 主实验结果(见表1) MBGEN 在两个基准测试集上均取得了最先进的性能。 * 在 NPLIB1 数据集上,MBGEN 的 Top-1 准确率达到 12.20%,显著优于之前的最佳方法 DiffMS (8.34%),提升幅度超过46%。其 Top-10 准确率也达到 22.29%,远高于 DiffMS 的 15.44%。同时,MBGEN 在 MCES(7.72,越低越好)和 Tanimoto 相似度(0.41)上也全面领先。 * 在更具挑战性的 MassSpecGym 数据集上,MBGEN 的优势更为明显。其 Top-1 准确率为 7.58%,是 DiffMS (2.30%) 的 3.3倍以上,提升幅度高达 230%。Top-10 准确率 (12.54%) 也接近 DiffMS (4.25%) 的3倍。MCES 和 Tanimoto 指标同样大幅领先。 * 结果解释:这些数据强有力地证明,MBGEN 提出的边中心建模和多体注意力机制能够更有效地从质谱中提取和利用结构信息,从而生成更准确、与真实分子更相似的候选结构。即使所有对比方法都使用了化学式约束,MBGEN 仍能取得巨大优势,突显了其建模策略的先进性。

2. 消融实验 (Ablation Study) 结果 * 多体注意力模块的有效性:通过移除多体注意力模块(记为 w/o MB)进行对比实验。结果显示,当谱图中每个峰的平均异构体数量较少(<1)时,两个模型性能相近。然而,随着异构体复杂性增加,完整 MBGEN 模型的性能保持稳定,而移除多体注意力的模型性能显著下降。在处理大分子(原子数 > 40)时,MBGEN 的 Tanimoto 相似度 (~0.525) 明显高于消融模型 (~0.425)。这表明多体注意力模块对于处理复杂异构体和大分子至关重要。 * 预训练-微调策略的有效性:在 NPLIB1 上测试了不同预训练组合的效果(见表2)。结果显示,编码器和解码器均不预训练的模型性能最差(Top-1准确率0%)。仅预训练编码器或仅预训练解码器能带来一定提升。而当两者都进行预训练时,模型取得了最佳性能(Top-1 12.20%, Top-10 22.29%)。这证明了分阶段预训练策略能有效为模型提供光谱和分子结构的先验知识,对最终性能有决定性贡献。

3. 案例分析 (Case Study) 研究提供了两个具体案例来直观展示 MBGEN 的优势(见图3)。 * 在案例 (a) (化合物 riken-0371) 中,对于 m/z 199.08 处的峰,MBGEN 和 DiffMS 都捕捉到了色酮 (chromone) 结构母核。但 MBGEN 额外识别出了与苯环和色酮位置排列相关的关键异构体碎片信息,而 DiffMS 则遗漏了。对于更复杂的 m/z 255.07 处的异构体碎片,MBGEN 成功捕获,DiffMS 则失败,导致丢失关键结构线索。 * 在案例 (b) (化合物 ccmslib00003137419) 中,MBGEN 通过多体相互作用整合了不同峰之间的互补性异构体细节,准确重建了分子结构,而 DiffMS 生成了错误的结构。 * 结果解释:这些案例表明,MBGEN 的多体算法通过显式地考虑峰内异构体复杂性,增强了模型对质谱的“解读”能力,从而能在具有挑战性的案例上做出更优的预测。

五、 研究结论与价值

本研究成功提出了 MBGEN,一个基于多体增强扩散和边中心建模的、用于从质谱数据从头生成分子结构的新框架。

科学价值与应用价值: * 科学价值:本研究首次将“多体相互作用”建模系统地引入到基于质谱的分子生成任务中。它突破了传统原子中心、成对相互作用模型的局限,为计算质谱学领域提供了一种更符合化学碎裂物理本质的分子表示和学习范式。研究证实,显式建模键-键高阶相互作用对于解析复杂质谱、区分异构体具有关键作用。 * 应用价值:MBGEN 在标准基准上实现了显著的性能提升,为代谢物鉴定、药物发现、环境污染物筛查等领域中未知化合物的结构解析提供了更强大的计算工具。其高准确率意味着能减少对庞大参考数据库的依赖,更有效地助力新化合物的发现。

六、 研究亮点

  1. 创新的建模视角:提出了边中心 (edge-centric) 的分子生成策略,将建模的基本单元从原子转向化学键,与质谱碎裂的化学过程(键的断裂与形成)直接对齐。
  2. 高阶相互作用建模:引入了多体注意力机制 (many-body attention mechanism),使模型能够显式捕捉和学习质谱中蕴含的、由多个键协同断裂产生的高阶结构信息,这是提升异构体分辨能力和复杂分子生成准确性的核心。
  3. 先进的框架设计:将上述创新融入扩散模型 (diffusion model) 的生成框架,并结合有效的三阶段预训练-微调策略,构建了一个强大且稳健的端到端生成模型。
  4. 显著的性能突破:在公开基准测试中,MBGEN 取得了最先进的性能,特别是在 MassSpecGym 数据集上实现了相对于之前最佳方法高达 230% 的 Top-1 准确率提升,并通过消融实验和案例分析扎实地验证了各创新组件的有效性。

七、 其他有价值内容

研究团队已公开模型代码(GitHub: biomed-ai/mbgen),促进了研究的可重复性和后续发展。此外,文档附录(未在提供文本中详述)提及了对模型计算效率的详细分析,这对于评估方法的实用性也具有重要意义。该工作获得了深圳市医学研究基金、广东省科技计划、中国博士后科学基金、临港实验室等多个项目的支持,体现了其重要的科研价值与应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com