分享自:

深度学习在核磁共振光谱学中的回顾与展望

期刊:Chemistry—A European JournalDOI:10.1002/chem.202000246

核磁共振波谱学中的人工智能:深度学习应用综述与展望

本文是一篇发表于《Chemistry—A European Journal》期刊的综述性论文(Minireview),由Xiaobo Qu教授(厦门大学)领衔,与Di Cheng Chen、Zi Wang、Di Guo(厦门大学、厦门理工学院)以及Vladislav Orekhov(哥德堡大学)合作撰写,于2020年正式发表。文章系统性地回顾了深度学习技术在核磁共振(NMR)波谱学领域的最新应用进展,并对其未来发展前景进行了展望。论文的核心目的在于阐明深度学习作为一种全新的、强大的数据分析方法,如何能够解决NMR波谱学中的传统难题,并最终推动该技术在化学与生命科学领域向更高效、更强大的方向发展。

一、 引言:深度学习与NMR波谱学的交汇

文章开篇指出,随着实验技术的飞速发展,NMR波谱学已成为化学、生命科学等领域不可或缺的工具,能够提供分子结构和动力学的原子级信息。然而,尽管机器学习在NMR中的应用最早可追溯至20世纪70年代,但其实际应用的广泛开展仍需等待新一代算法和现代计算能力的成熟。近年来,以深度学习为代表的人工智能技术,凭借其强大的特征提取和复杂非线性映射能力,在计算机视觉、医学影像等领域取得了巨大成功。这促使NMR领域的研究者开始关注并探索利用深度学习来解决传统方法的不足。

文章聚焦于NMR波谱学中四个常见的实际问题:1)波谱重建:通过非均匀采样(Nonuniform Sampling, NUS)加速数据采集后,需要从欠采样数据中重建完整谱图;2)波谱去噪:提升低信噪比(SNR)谱图的质量;3)化学位移预测:从分子结构预测NMR化学位移,或反之;4)自动峰识别:自动化地从复杂谱图中识别和定位信号峰。深度学习为这些挑战提供了全新的解决方案。

二、 深度学习基础架构及其在NMR中的应用

论文第二部分详细介绍了在NMR波谱学中主要应用的三种深度学习基本架构,并解释了网络训练的基本流程。

  1. 深度神经网络:DNNs主要指多层感知机,由全连接的输入层、多个隐藏层和输出层构成。其优势在于处理复杂的高维数据映射。鉴于NMR谱数据的复杂性和高维特性,DNNs在分析复杂NMR谱图方面具有潜力,尤其在化学位移预测(如SPARTA+、PPM_One、TALOS-N模型)和自动峰识别中已有应用。
  2. 卷积神经网络:CNNs专为处理网格状数据(如一维序列、二维图像)设计,通过卷积层、非线性层和池化层来提取空间特征。这种特性使其非常适合于将NMR谱图视为图像进行处理,因此在波谱重建、去噪以及基于原子环境网格的化学位移预测(如MR-3D-DenseNet模型)中表现出色。
  3. 循环神经网络:RNNs专为处理序列数据(如时间序列)设计,其隐藏单元的状态能够记忆先前序列的信息。由于NMR中的自由感应衰减信号和谱图数据本质上是序列数据,RNNs及其变体(如长短期记忆网络LSTM)为处理时域NMR数据提供了有力工具,例如用于从欠采样时间域数据直接重建FID信号。

网络训练的核心流程包括前向传播(计算网络输出)、损失函数计算(衡量输出与真实标签的误差)、反向传播(计算参数梯度)以及优化算法(如随机梯度下降SGD或Adam)更新参数。正则化技术(如Dropout、批归一化)用于防止过拟合,提高模型的泛化能力。主流的深度学习库(如TensorFlow, PyTorch, Caffe, MATLAB工具箱)为这些应用的实现提供了支持。

三、 深度学习在NMR波谱学中的具体应用

文章的核心部分通过具体的研究实例,详细阐述了深度学习在上述四个关键问题中的应用。

1. 波谱重建 传统NUS数据重建方法(如压缩感知、低秩方法)通常依赖先验知识或假设,且计算过程多为迭代式,耗时较长。深度学习通过学习从欠采样FID信号到目标谱图的最优映射,提供了一种非迭代、低复杂度且可利用GPU并行加速的新途径。 * CNN方法:Qu等人提出了一种基于CNN的方法,用于从有限实验数据中快速重建小分子、大分子乃至无序蛋白质的高质量NMR谱图。该方法使用合成的NMR数据进行训练,网络结构包含五个连续的密集CNN块,并施加数据一致性约束。实验结果表明,该方法重建2D和3D谱图的速度远超传统低秩和压缩感知方法(计算时间仅为后者的4-22%),且能有效去除欠采样引入的伪影。 * LSTM方法:Hansen提出了一种基于改进LSTM网络的方法。与CNN在频域处理谱图不同,该网络直接在时域工作,输入为欠采样的时间域数据矩阵和采样方案,输出为重建的完整时间域数据,再经傅里叶变换得到谱图。该方法能准确重建峰强度,尽管其计算时间与传统方法相当。

2. 波谱去噪 NMR,特别是在体脑波谱,常受低SNR、信号重叠及磁场不均匀性导致的基线扭曲等问题困扰。传统去噪滤波方法存在局限。 * CNN去噪:Lee和Kim开发了一个CNN模型,用于对磁共振波谱成像中的脑代谢物谱进行去噪。该网络使用模拟的、具有宽范围SNR和线宽的脑波谱数据进行训练,并在健康志愿者的在体数据上进行了测试。深度学习成功学会了从含有严重干扰的信号到高SNR谱图的映射。这项研究证明,仅使用模拟数据也能成功训练网络,其鲁棒性有望实现亚分钟级的人脑1H谱采集,具有重要临床价值。

3. 谱图解析:化学位移预测 化学位移是NMR谱图中信息最丰富的参数,与化合物结构密切相关。但其预测涉及复杂的非线性映射。 * 基于结构的预测:早期有ProShift等方法。Shen和Bax开发的SPARTA+利用DNN,输入包括残基的氨基酸类型相似性分数等113个特征,成功预测了蛋白质骨架和13Cβ原子的化学位移,性能优于当时最佳方法。随后发展的PPM_One采用了略有不同的DNN结构(隐藏层到输出层为线性传递函数),在除C’羰基碳外的所有原子预测上表现更优。 * 基于原子环境密度的预测:Liu等人提出了一个多分辨率3D-DenseNet模型。该方法将待评估原子置于3D网格中心,计算其高斯原子密度作为输入,通过网络预测化学位移。该模型对13C、15N、17O化学位移预测表现出高度一致性,对1H化学位移的预测精度与从头算量子化学方法相当。 * 基于化学位移的结构预测:深度学习也能解决逆问题,即从化学位移预测结构。Shen和Bax开发的TALOS-N模型使用DNN,根据1H、15N、13C的化学位移来预测蛋白质二级结构(如骨架二面角)。验证表明,该模型能为超过90%的残基预测二面角,错误率低于3.5%。

4. 谱图解析:自动峰识别 自动化峰识别是NMR数据分析自动化的首要挑战,难点在于峰重叠、低SNR和伪影。 * NMR-Net:Klukowski等人提出了NMR-Net,一个用于峰识别的CNN模型。其流程包括:确定候选峰位置、过滤低强度候选点、谱图分辨率和强度归一化,最后通过CNN对每个候选点进行分类(输出为真峰概率)。该模型在31张人工标注的谱图上验证,对主链峰、侧链峰和NOESY峰的识别精度很高。 * Bruker的方法:Bruker BioSpin公司也展示了利用DNN进行峰识别的方法。使用模拟谱图及其标签训练网络,训练后的DNN能够准确识别实验1H NMR数据中的信号区域,精度与人工选取相当。

四、 总结、挑战与未来展望

文章总结指出,深度学习以其独特的数据驱动方式,已在NMR波谱学中展现出巨大潜力:1)成功建立了含噪声、失真信号与完整谱图之间的映射关系(重建、去噪);2)替代了复杂的计算和人工分析(化学位移预测、峰识别)。

然而,深度学习也面临挑战:首先是“黑箱”问题,即模型的可解释性不足。Bengio等人提出的元学习因果结构以及Amey和Kuprov提出的群论程序是试图打开黑箱的尝试。其次是训练数据短缺。当前解决方案包括利用模拟数据构建训练集,以及利用大型可信数据库(如BMRB, PDB)。未来需要建立更大、更多样化的NMR数据库,并促进数据、处理工具和程序的共享(如NMRBox平台)。

展望未来,深度学习有望在更多NMR问题上发挥作用:1)通过探索新的DL架构和优化算法,实现更高维生化NMR谱图的快速高质量重建;2)在去噪中,进一步消除残留水信号和其他影响代谢物检测与定量的伪影;3)在谱图解析中,解决从化学位移归属到新化合物结构发现与物化性质描述等更复杂任务;4)将应用扩展到扩散谱、动态谱,整合时域和频域信息作为输入,并进行大规模谱图数据训练。

五、 论文的价值与意义

这篇综述系统地梳理了深度学习在NMR波谱学这一交叉前沿领域的应用全景,具有重要的学术价值。它不仅为NMR研究者提供了入门深度学习技术的清晰指南(包括基本架构、训练流程和可用工具),还通过丰富的实例展示了DL在解决NMR核心难题上的有效性和巨大潜力。文章指出的当前挑战(如可解释性、数据稀缺)和未来方向,为领域内的后续研究指明了重点。总体而言,该文有力地论证了深度学习正成为推动NMR波谱学技术变革的一种强大新范式,将助力其在化学和生命科学研究中发挥更高效、更强大的作用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com