分享自:

基于机器学习的核磁共振谱图自动结构解析框架

期刊:Chemical ScienceDOI:10.1039/d1sc04105c

该文档属于类型a(原创研究报告),以下是学术报告内容:


作者及机构
本研究由斯坦福大学化学系的Zhaorui Huang、Michael S. Chen、Cristian P. Woroch、Thomas E. Markland*和Matthew W. Kanan*合作完成,通讯作者为Thomas E. Markland和Matthew W. Kanan。研究成果发表于Chemical Science期刊,发表于2021年11月9日,文章标题为《Automated structure elucidation from routine NMR spectra†》,开放获取许可为CC BY-NC 3.0。

学术背景
核磁共振(NMR)光谱是有机分子结构解析的最强大工具之一,但传统方法依赖人工解读,耗时长且易出错。随着自动化实验技术的进步,化学合成速度大幅提升,但结构解析效率成为瓶颈。研究团队旨在开发一种机器学习(ML)框架,通过常规一维¹H和¹³C NMR光谱数据,自动化预测未知化合物的结构连接性( constitutional isomer,构象异构体)。该研究的核心目标是解决“逆问题”——从光谱数据反向推导分子结构,突破传统计算机辅助结构解析(CASE)程序依赖人工干预和数据库局限性的缺陷。

研究流程
1. 数据准备与模型设计
- 数据集:研究结合了模拟和实验数据。模拟数据基于GDB-13数据库生成10万个小分子(≤9个非氢原子)的¹H和¹³C NMR光谱(通过MestReNova软件模拟,并添加随机峰宽以模拟实验变异性);实验数据来自Human Metabolome Database(HMDB)、SDBS及自主测量,共309组分子(≤10个非氢原子),分为验证集(214例)和测试集(95例)。
- 机器学习模型:采用多任务卷积神经网络(CNN)架构,包含两层一维卷积层和全连接层。输入为¹H全谱、¹³C化学位移和分子式,输出为957个子结构(substructure)的概率分布。模型通过监督学习训练,采用任务级早停(task-based early stopping)和五重集成平均提升鲁棒性。

  1. 子结构预测与验证

    • 子结构选择通过两种策略生成:(1)系统性扩展中心碳原子的两键范围内原子;(2)基于训练集中分子差异的随机对比。最终筛选出957个区分性强的子结构(如甲基、羰基、芳环等)。
    • 测试集结果显示,模型在同时输入¹H和¹³C数据时,微平均F1分数达0.803,PRC-AUC(精确召回曲线下面积)为0.904。对特定子结构(如甲基)的预测准确率高达99.9%(假阴性率仅0.11%)。
  2. 分子结构生成与排名

    • 基于子结构概率分布,开发了束搜索算法(beam search),逐步构建分子图(每步添加一条键),剔除化学不合理中间体,保留损失函数(BCE)最低的候选结构。束大小设为1000时,测试集中67.4%的分子正确结构排名第一,95.8%位列前十。对比全枚举生成(使用Open Molecular Generator),模型性能损失仅1%,表明错误主要源于子结构预测偏差。
  3. 光谱注释与拓展性验证

    • 通过掩码输入技术,模型可自动标注光谱峰对应的子结构(如羰基碳或亚甲基峰)。此外,在12-14个非氢原子的分子测试中,模型仍保持较高准确性(F1=0.730),显示其潜在泛化能力。

主要结果
- 子结构预测模型在实验数据中表现出色:对高置信度预测(概率>0.9)的准确率为99.27%,低置信度(概率<0.1)的假阴性率仅0.11%。
- 分子结构预测方面,即使面对超过10万个异构体的分子式(如C₆H₁₀O₂),模型仍能高效锁定正确结构(如案例中的哌啶-2-甲酸和胸腺嘧啶)。
- 对未处理的原始光谱(含溶剂峰和杂质峰),模型仅损失12%的Top-1准确率,显示良好的抗干扰能力。

结论与价值
该研究首次实现了基于常规NMR数据的全自动化结构解析框架,其核心贡献包括:
1. 科学价值:通过ML将子结构识别与图生成算法结合,解决了传统CASE程序依赖人工和数据库的局限,为复杂分子(如天然产物)的快速解析提供了新思路。
2. 应用价值:可集成至自主化反应发现平台,加速分子设计和合成验证。模型的光谱注释功能还能辅助化学家理解预测依据,提升可解释性。

研究亮点
- 方法创新:首创多任务CNN预测957个子结构,远超现有方法(通常仅预测少数官能团)。
- 算法优化:束搜索算法通过子结构概率指导分子生成,显著提升效率(避免全枚举组合爆炸)。
- 数据兼容性:仅需常规一维NMR数据,无需二维实验或峰多重性赋值,更贴近实际应用场景。

其他价值
研究者指出,未来可通过扩展子结构库(如立体化学特征)和融合量子化学计算,进一步预测相对立体构型(diastereomer),并将框架扩展至更大分子(如药物分子)。代码和数据已部分公开,推动领域内协作验证。


(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com