本研究由多伦多大学(University of Toronto)的Edwin Chacko、McMaster大学的Rudra Sondhi(共同一作)、加州Oakwood学校的Arnav Praveen、多伦多大学的Kylie L. Luska以及McMaster大学的Rodrigo A. Vargas-Hernández(通讯作者)合作完成。研究尚未标注具体期刊信息,但提交于2024年NeurIPS会议的”AI for Science”研讨会。
科学领域:本研究属于计算化学与人工智能交叉领域,聚焦分子结构解析(Molecular Structure Elucidation)这一化学表征的核心挑战。传统方法依赖专家手动分析红外光谱(IR)和核磁共振(NMR)数据,效率低且易受主观影响。
研究动机:
1. 复杂性挑战:分子可能结构的数量随原子数指数增长,传统方法难以高效处理;
2. 多模态数据整合需求:单一光谱技术(如IR或NMR)提供的信息有限,需联合分析;
3. 自动化工具缺口:现有算法(如GENIUS、SESAMI)依赖数据库或特定规则,泛化能力不足。
目标:开发SPECTRO——一种基于深度学习的多模态框架,通过联合解析IR与NMR(¹H和¹³C)数据,直接输出分子结构(以SELFIES表示法编码),实现高精度、无数据库依赖的自动化结构解析。
SPECTRO由三个模块组成:
(1) J-IR-VIS(IR编码器)
- 基础模型:改进的ResNet50(参数量25M),输入为IR图像;
- 创新点:
- 输出2,048维向量(IRz),通过MLP分类块预测9类官能团;
- 采用加权二元交叉熵损失(Weighted BCE)解决类别不平衡;
- 预处理包括灰度化、亮度调整及高斯噪声增强。
- 性能:官能团检测F1分数91%,醛类(94%)和硝基(90%)识别最佳,胺类(84%)和酮类(86%)稍弱。
(2) NMR文本编码器
- 方法创新:将NMR谱视为文本,使用LLM2Vec模型(基于大语言模型)编码:
- 输入示例:"13C NMR: δ 73.9 (1C, s), 94.8 (1C, s)...";
- 输出4,096维向量(NMRz),无需微调即可区分¹H/¹³C谱。
(3) 分子解码器
- 架构:4层LSTM(参数量42M),输入为IRz、NMRz(¹H)、NMRz(¹³C)的拼接向量;
- 训练目标:预测SELFIES令牌序列,采用稀疏分类交叉熵损失(Sparse CCE);
- 关键设计:SELFIES的化学有效性保证(即使预测错误仍输出合法分子)。
整体性能:
官能团识别:
分子特性预测:
案例对比:
科学意义:
1. 方法论创新:首次实现IR与NMR的多模态嵌入联合解码,突破单一光谱局限性;
2. 技术通用性:SELFIES编码确保化学有效性,LLM2Vec实现NMR文本的高效表征;
3. 应用潜力:为自驱动实验室(SDLs)提供自动化结构解析工具,缩短材料开发周期。
实际价值:
- 教育:辅助化学学生理解谱图-结构关联;
- 工业:加速药物分子或新材料的结构验证。
(注:因原文未明确期刊信息,部分细节如补充材料图6等需参考原文档。)