结合对比学习与进化算法从原始光谱进行端到端多模态结构解析

分享自：
结合对比学习与进化算法从原始光谱进行端到端多模态结构解析

期刊:Nature CommunicationsDOI:10.1038/s41467-026-73846-y
基于原始多模态光谱的端到端分子结构解析：结合对比学习与进化算法作者与机构：本研究由 Adrian Mirza (1,2)，Luc Patiny (3) 与 Kevin Maik Jablonka (2,4,5,6) 共同完成。作者单位包括：1. 亥姆霍兹柏林材料与能源中心，德国柏林；2. 亥姆霍兹耶拿聚合物能源应用研究所，德国耶拿；3. Zakodium Sàrl，瑞士洛奈；4. 耶拿大学有机与高分子化学研究所，德国耶拿；5. 耶拿大学耶拿能源与环境化学中心，德国耶拿；6. 耶拿大学耶拿软物质中心，德国耶拿。该研究成果于2026年发表在 Nature Communications 期刊上。
学术背景：本研究属于化学信息学与计算化学领域，聚焦于分子结构解析这一化学科学的核心挑战。长期以来，从核磁共振（NMR）、红外（IR）、质谱（MS）等光谱数据中确定未知化合物的分子结构，严重依赖化学家的专业知识和对多种分析技术的耗时、易错的手动解读。这是因为单一光谱技术提供的信息有限，往往导致多个可能的分子结构（简并解）。尽管已有计算机辅助结构解析（CASE）系统，但它们通常存在显著局限：大多仅处理单一光谱模态；严重依赖繁琐的手动谱图预处理（如峰提取）；无法处理原始光谱数据；缺乏可靠的置信度评估；且难以适应新的化学领域或灵活组合不同的可用光谱数据。因此，开发一个能够直接从原始、多模态光谱数据出发，自动化、高精度地提出结构候选列表，并提供置信度与相关数据库背景的系统，具有重要的科学意义与应用价值。本研究的核心目标是开发一个名为SECS（从化学光谱进行结构解析）的框架，旨在模拟专家综合运用多种光谱“透镜”的能力，解决上述瓶颈，加速化学发现进程。
详细工作流程：本研究的工作流程是一个整合了机器学习模型训练、跨模态检索与进化算法优化的多步骤管道，其核心在于“检索后精炼”的策略。
第一步：跨模态对比学习模型的训练。研究首先需要训练能够将不同模态的光谱与分子结构映射到同一语义空间的编码器。所使用的数据主要来源于Alberts等人于2024年构建的一个包含79.4万个SMILES-光谱对的大型数据集，涵盖了模拟的¹³C NMR、¹H NMR、IR和HSQC谱。研究将数据的95%用于训练，5%用于测试。对于光谱的表征，研究采用了不同的向量化方法：¹³C NMR谱被编码为一个代表0-300 ppm化学位移范围的二进制向量；¹H NMR和IR谱则被表示为高维向量，其中位置对应位移值或波数，数值对应峰强度或透射率，并进行了归一化；HSQC谱则被表示为512×512的矩阵。关键创新在于引入了数据增强技术，例如对¹H NMR谱添加抖动、峰宽变化、基线噪声等，使模拟光谱更接近真实的实验数据，这对于模型泛化到实验数据至关重要。
模型架构上，研究者采用了模块化设计，为每种模态选择了合适的编码器：使用基于Transformer的MolFormer模型编码SMILES字符串（分子结构）；使用多层感知机（MLP）编码¹³C NMR；使用带有自注意力机制的ResNet风格卷积神经网络（CNN）编码¹H NMR和HSQC；使用CNN编码IR谱。每个编码器后接一个线性投影层，将不同模态的嵌入向量统一到相同维度。训练的核心是对比学习损失函数（InfoNCE loss），其目标是最大化同一分子对应的光谱嵌入与SMILES嵌入之间的相似性，同时最小化不同分子对应的嵌入之间的相似性。通过这种对称对比损失训练，模型学会了在不同模态间建立对齐的嵌入空间，使得同一分子的不同光谱表征在嵌入空间中彼此靠近。
第二步：基于嵌入相似性的多模态检索。训练好的编码器可以将任何输入的原始光谱转换为嵌入向量。在推理阶段，当用户输入一种或多种光谱（如IR、¹³C NMR、¹H NMR、HSQC的任意组合）时，系统首先利用这些光谱的嵌入向量，在一个大型分子数据库（如PubChem的子集）中进行检索。检索依据是计算光谱嵌入与数据库中所有分子（通过其SMILES计算出的）嵌入之间的余弦相似度。系统会返回与输入光谱最相似的N个分子，作为初始候选池。这一步模拟了化学家的“去重复化”过程，但优势在于可以直接搜索分子数据库（其规模远大于光谱数据库），并且可以跨光谱模态进行联合检索。
第三步：基于进化算法的结构生成与精炼。由于检索只能找到已知化合物，对于全新结构的分子无效，研究引入了生成式步骤。系统利用第二步检索到的高相似度分子作为初始种群，启动一个改进的遗传算法（Graph Genetic Algorithm, GraphGA）。该算法直接在分子的图结构上进行操作，通过突变（如添加、删除、改变原子、键或子结构）和交叉来生成新的候选结构。每个候选结构都会通过编码器得到其SMILES嵌入，然后计算该嵌入与所有输入光谱嵌入的余弦相似度的平均值，作为适应度函数（奖励函数R）的主要部分。此外，函数还包含一个基于给定分子式（通常从高分辨率质谱获得）的惩罚项，以引导搜索方向。算法运行多代，不断优化候选结构以最大化与输入光谱的总体相似度。
第四步：结果输出与校准。最终，系统输出一个按相似度得分排序的候选分子列表。这个列表既包含从数据库中检索到的已知化合物，也包含进化算法生成的新颖结构。系统还通过分析大量测试样本，建立了相似度得分与预测准确率之间的校准曲线，从而可以为每个预测提供一个可靠的置信度估计。这使得SECS不仅能提出结构建议，还能评估建议的可信度。
主要结果： 1. 多模态检索性能：研究测试了不同光谱组合在1000个分子测试集上的检索能力（即正确分子出现在排名第一位的比例）。结果显示，使用单一光谱时，检索正确率约为89%；结合两种技术提升至96.4%；结合三种技术达到98.1%；结合四种技术达到98.4%。这证明了多模态信息融合对于解决结构简并问题的必要性，也验证了对比学习模型跨模态对齐的有效性。 2. 结构解析性能：在更具挑战性的结构解析任务（即生成正确结构，而不仅是检索）上，SECS系统展现了卓越性能。当使用¹³C NMR和¹H NMR时，其Top-1准确率（正确结构排在首位）达到82%，比文献中基于峰列表的领先方法高出约22%。研究还发现，在加入¹³C NMR后，再增加其他谱图对性能提升有限，表明许多案例仅需一维NMR即可解决，但某些疑难案例仍需多模态数据来消除简并性。 3. 置信度校准：研究证实，SECS使用的多模态相似度得分与预测准确率高度相关，呈现良好的线性校准关系。这意味着该得分可以作为可靠的置信度指标，例如，当得分高于某一阈值时，预测正确的概率可达94%以上。 4. 错误结构指认识别：SECS被成功应用于识别已发表文献中错误的结构指认案例。研究选取了四个已知被错误指认的化合物，输入其正确的光谱数据。结果显示，原始错误结构的相似度得分很低，而SECS系统能够自主地提出正确的结构作为高排名候选，且得分显著高于错误结构。这证明了SECS作为自动化错误检测工具的潜力。 5. 在实验数据上的性能：为了验证系统在真实实验数据上的有效性，研究进行了两项测试。首先，在一个包含34个分子的内部实验数据集（¹H NMR和¹³C NMR）上，仅使用模拟数据训练的模型在实验数据上表现不佳（Top-1为0%）。通过应用数据增强，性能跃升至38.2%，再通过在2.37k个实验谱图数据上微调模型，最终Top-1准确率达到55.8%。当结合¹³C NMR数据时，性能进一步提升至88.2%（Top-1）和97.1%（Top-3）。其次，在一个从Chemotion数据库获取的、包含1486个新近发表化合物的更具挑战性的数据集上，SECS的Top-1准确率为10.3%，Top-20准确率为24.8%。对于其中分子量较小的子集（323个化合物），Top-20准确率可达58.5%。 6. 与人类专家对比：研究组织了一项与经验化学家的对比实验。6位化学家（包括一位拥有20多年NMR经验的专家）尝试解析20个具有挑战性的分子结构（仅提供¹H NMR谱和分子式）。结果显示，即使是最优秀的专家也未能解决一半的问题，平均耗时13.2小时。而SECS在此任务上的表现与参与化学家的平均水平相当，达到了专家级水平，证明了其自动化解析能力的实用性。
结论与意义：本研究提出的SECS框架，首次实现了直接从原始、多模态光谱数据出发，通过结合对比学习与进化算法，进行端到端的自动化分子结构解析。其科学价值在于，它成功地将化学领域积累的海量光谱-结构配对数据，通过先进的机器学习范式转化为强大的推理工具，解决了长期存在的分析瓶颈。应用价值体现在：1) 自动化与高效：避免了耗时的谱图预处理，可直接处理原始数据，大幅提升解析效率。2) 灵活性与可扩展性：能够灵活组合任意可用的光谱类型，并可通过简单更新参考数据库来适应新的化学领域，无需重新训练模型。3) 可靠性：提供经过校准的置信度评分和相关数据库背景，帮助化学家理解和信任预测结果。4) 纠错能力：可作为辅助工具，识别数据库或文献中可能存在的错误结构指认。这项研究展示了协同结合不同机器学习范式（对比学习与进化算法）在解决复杂科学问题上的巨大潜力，有望加速新材料、新药物的发现过程。
研究亮点： 1. 方法创新性：提出了“检索后精炼”的新范式，将基于对比学习的跨模态检索与基于图结构的遗传算法生成相结合，兼顾了已知化合物的快速识别与全新结构的探索生成。 2. 端到端处理原始数据：直接处理原始光谱，无需手动峰提取等预处理步骤，这是迈向全自动化实验室的关键一步。 3. 真正的多模态与灵活性：系统设计允许用户输入任意组合、任意数量的光谱数据，并能有效融合这些信息，模拟了化学家的实际工作流程。 4. 提供置信度与上下文：不仅输出结构候选，还提供量化的置信度估计以及相似的已知化合物作为参考，极大增强了结果的可解释性和实用性。 5. 实证性能卓越：在模拟和实验数据上均表现出高准确率，能够识别文献错误，并在与人类专家的对比测试中达到可比性能，强有力地证明了其有效性和实用价值。
其他有价值内容：研究还讨论了当前实现的局限性（如对立体化学的处理尚不完善）和未来方向，例如扩展至处理蛋白质结构解析、混合物分析等更复杂问题。所有模型检查点、源代码和数据集均已公开，促进了该领域的可重复研究和进一步发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问