基于机器学习的核磁共振谱图自动结构解析框架

分享自：
基于机器学习的核磁共振谱图自动结构解析框架

期刊:Chemical ScienceDOI:10.1039/d1sc04105c
该文档属于类型a（原创研究报告），以下是学术报告内容：
作者及机构：
 本研究由斯坦福大学化学系的Zhaorui Huang、Michael S. Chen、Cristian P. Woroch、Thomas E. Markland*和Matthew W. Kanan*合作完成，通讯作者为Thomas E. Markland和Matthew W. Kanan。研究成果发表于Chemical Science期刊，发表于2021年11月9日，文章标题为《Automated structure elucidation from routine NMR spectra†》，开放获取许可为CC BY-NC 3.0。
学术背景：
 核磁共振（NMR）光谱是有机分子结构解析的最强大工具之一，但传统方法依赖人工解读，耗时长且易出错。随着自动化实验技术的进步，化学合成速度大幅提升，但结构解析效率成为瓶颈。研究团队旨在开发一种机器学习（ML）框架，通过常规一维¹H和¹³C NMR光谱数据，自动化预测未知化合物的结构连接性（ constitutional isomer，构象异构体）。该研究的核心目标是解决“逆问题”——从光谱数据反向推导分子结构，突破传统计算机辅助结构解析（CASE）程序依赖人工干预和数据库局限性的缺陷。
研究流程：
 1. 数据准备与模型设计：
 - 数据集：研究结合了模拟和实验数据。模拟数据基于GDB-13数据库生成10万个小分子（≤9个非氢原子）的¹H和¹³C NMR光谱（通过MestReNova软件模拟，并添加随机峰宽以模拟实验变异性）；实验数据来自Human Metabolome Database（HMDB）、SDBS及自主测量，共309组分子（≤10个非氢原子），分为验证集（214例）和测试集（95例）。
 - 机器学习模型：采用多任务卷积神经网络（CNN）架构，包含两层一维卷积层和全连接层。输入为¹H全谱、¹³C化学位移和分子式，输出为957个子结构（substructure）的概率分布。模型通过监督学习训练，采用任务级早停（task-based early stopping）和五重集成平均提升鲁棒性。
子结构预测与验证：
子结构选择通过两种策略生成：（1）系统性扩展中心碳原子的两键范围内原子；（2）基于训练集中分子差异的随机对比。最终筛选出957个区分性强的子结构（如甲基、羰基、芳环等）。
 
测试集结果显示，模型在同时输入¹H和¹³C数据时，微平均F1分数达0.803，PRC-AUC（精确召回曲线下面积）为0.904。对特定子结构（如甲基）的预测准确率高达99.9%（假阴性率仅0.11%）。
 
分子结构生成与排名：
基于子结构概率分布，开发了束搜索算法（beam search），逐步构建分子图（每步添加一条键），剔除化学不合理中间体，保留损失函数（BCE）最低的候选结构。束大小设为1000时，测试集中67.4%的分子正确结构排名第一，95.8%位列前十。对比全枚举生成（使用Open Molecular Generator），模型性能损失仅1%，表明错误主要源于子结构预测偏差。
 
光谱注释与拓展性验证：
通过掩码输入技术，模型可自动标注光谱峰对应的子结构（如羰基碳或亚甲基峰）。此外，在12-14个非氢原子的分子测试中，模型仍保持较高准确性（F1=0.730），显示其潜在泛化能力。
 
主要结果：
 - 子结构预测模型在实验数据中表现出色：对高置信度预测（概率>0.9）的准确率为99.27%，低置信度（概率<0.1）的假阴性率仅0.11%。
 - 分子结构预测方面，即使面对超过10万个异构体的分子式（如C₆H₁₀O₂），模型仍能高效锁定正确结构（如案例中的哌啶-2-甲酸和胸腺嘧啶）。
 - 对未处理的原始光谱（含溶剂峰和杂质峰），模型仅损失12%的Top-1准确率，显示良好的抗干扰能力。
结论与价值：
 该研究首次实现了基于常规NMR数据的全自动化结构解析框架，其核心贡献包括：
 1. 科学价值：通过ML将子结构识别与图生成算法结合，解决了传统CASE程序依赖人工和数据库的局限，为复杂分子（如天然产物）的快速解析提供了新思路。
 2. 应用价值：可集成至自主化反应发现平台，加速分子设计和合成验证。模型的光谱注释功能还能辅助化学家理解预测依据，提升可解释性。
研究亮点：
 - 方法创新：首创多任务CNN预测957个子结构，远超现有方法（通常仅预测少数官能团）。
 - 算法优化：束搜索算法通过子结构概率指导分子生成，显著提升效率（避免全枚举组合爆炸）。
 - 数据兼容性：仅需常规一维NMR数据，无需二维实验或峰多重性赋值，更贴近实际应用场景。
其他价值：
 研究者指出，未来可通过扩展子结构库（如立体化学特征）和融合量子化学计算，进一步预测相对立体构型（diastereomer），并将框架扩展至更大分子（如药物分子）。代码和数据已部分公开，推动领域内协作验证。
（报告总字数：约1800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问