分享自:

基于深度对比学习的13C NMR谱与结构跨模态检索用于化合物鉴定

期刊:Analytical ChemistryDOI:10.1021/acs.analchem.1c04307

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


跨模态检索技术在化合物鉴定中的应用:基于深度对比学习的13C NMR谱与分子结构匹配系统

作者及机构
本研究的通讯作者为Yafeng Deng(任职于奇虎360人工智能研究院和清华大学自动化系)和Xiaojian Wang(任职于中国医学科学院北京协和医学院药物研究所天然药物活性物质与功能国家重点实验室)。其他作者包括Zhuo Yang、Jianfei Song、Minjian Yang等,分别来自上述机构及中国国际医药卫生交流促进会药学信息化分会。该研究于2021年11月29日发表在《Analytical Chemistry》期刊(2021年第93卷,页码16947-16955)。


学术背景

研究领域与动机
该研究属于计算化学与人工智能交叉领域,聚焦于碳13核磁共振(13C NMR)谱与分子结构的跨模态检索。传统化合物鉴定依赖“谱库匹配”,需预先建立包含谱图与结构对的参考库,但现有谱库(如NMRShiftDB、Naproc-13)仅涵盖数万至数十万条目,而分子结构库(如PubChem)则包含数亿条目。由于实验测定NMR谱耗时昂贵,谱库规模受限成为瓶颈。因此,研究团队提出了一种创新方法:直接通过13C NMR谱检索分子结构库,绕过谱库限制。

科学问题与技术挑战
跨模态检索的核心难点在于衡量谱图与结构的内容相似性。传统方法无法直接比较不同模态数据(如数值化谱图与文本型SMILES字符串)。研究假设对比学习(contrastive learning)可解决此问题,其通过将不同模态数据映射到共同潜在空间实现直接比对,此前已在图像-文本检索中表现优异。


研究流程与方法

1. 数据收集与预处理
- 数据来源:整合三个13C NMR谱库(NMRShiftDB2、Naproc-13及自建库),去重后获得418,863个分子-谱图对。
- 数据集划分
- 训练集(25,450分子):来自NMRShiftDB2的80%数据。
- 测试集(6,471分子):NMRShiftDB2的剩余20%。
- 外部测试集(41,494分子):Naproc-13与自建库的独立数据。
- 补充集(345,448分子):用于扩充训练。
- 数据表示
- 谱图编码:将化学位移值(-50.0至350.0 ppm)转换为4,000维二元向量,每位代表0.1 ppm间隔是否存在峰。
- 结构编码:使用RDKit生成SMILES字符串(不含手性),并通过枚举不同原子根节点增强数据多样性。

2. 模型构建(CRESS系统)
- 核心框架:基于对比学习的双编码器架构。
- NMR编码器:混合CNN-MLP网络,含1D卷积层和4层全连接,参数总数2,338,720。
- SMILES编码器:基于Transformer的模型,含6层编码器(每层12个注意力头),参数44,237,569。
- 训练策略
- 使用InfoNCE损失函数,最大化正样本对(匹配的谱图-结构)的余弦相似度,最小化负样本对相似度。
- 优化器为AdamW,激活函数为ReLU。

3. 参考库构建与检索流程
- 两阶段检索
- 特征提取:NMR编码器将查询谱图转换为768维向量。
- 库搜索:计算与参考库中分子结构向量的余弦相似度,按得分排序返回候选列表。
- 参考库规模:最终包含1,045万分子(来自PubChem及自建库)。

4. 性能评估指标
- Recall@k:前k个候选包含正确结构的比例。
- 处理速度:单次查询耗时。
- 辅助过滤器:引入分子量容差(如±5 Da)提升精度。


主要结果

1. 模型优化验证
- 编码器对比:NMR编码器D(CNN-MLP混合)表现最优,Recall@10达75.03%(测试集)。
- 数据量影响:训练集从2.5万增至37万分子时,Recall@10从75.03%提升至93.93%。
- 参考库规模:库容从10万增至1,000万时,Recall@10从93.93%降至73.70%,但下降速度随库容增大减缓。

2. 外部测试集表现
- 基础性能:Recall@10达91.64%,单次查询耗时0.114秒(CPU)。
- 分子量影响:大分子(>500 Da)Recall@10达97.07%,高于小分子(<200 Da)的84.09%。
- 质量过滤器增益:±5 Da过滤器将Recall@10提升至98.39%,Recall@1从65.02%升至84.07%。

3. 应用场景验证
- 新化合物骨架识别:对45个天然产物(未在参考库中),CRESS在萜烯类中成功检索到相似骨架(Tanimoto相似度>0.5)。
- 结构修正辅助:对8个已修正结构的化合物,CRESS为修正后结构分配更高相似度得分(如Phyllostictine A修正结构得分0.92 vs 原结构0.81)。


结论与价值

科学意义
- 方法论创新:首次将对比学习应用于NMR-结构跨模态检索,突破传统谱库匹配的规模限制。
- 技术性能:在千万级结构库中实现>90%的Recall@10,速度满足实时需求。

应用潜力
- 高通量鉴定:可整合至自动化药物发现流程。
- 结构修正工具:辅助验证或修订争议结构。
- 扩展性:框架可适配其他光谱-结构检索任务(如质谱)。

资源开放
- CRESS网络服务器http://cnmr.ai.360.cn/
- 代码仓库https://github.com/qihoo360/cress


研究亮点

  1. 跨模态检索创新:首次实现13C NMR谱直接检索分子结构库,无需依赖配对谱库。
  2. 算法设计:双编码器架构结合对比学习,解决谱图-结构异构数据对齐问题。
  3. 规模验证:在千万级库容下保持高效,为大规模化合物鉴定提供可行方案。
  4. 应用拓展:验证了在新化合物骨架识别和结构修正中的实用价值。

局限性
- 对训练集未覆盖的结构类别(如香豆素类)表现较差,提示数据多样性仍需提升。
- 异构体区分能力有限,需结合其他光谱数据(如2D NMR)增强特异性。


此研究为计算辅助化学分析提供了新范式,其开源工具和框架有望推动领域内数据驱动方法的普及。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com