分享自:

基于深度学习的相位条件红外光谱生成方法

期刊:anal. chem.DOI:10.1021/acs.analchem.4c04786

红外光谱(Infrared Spectroscopy, IR)是化学分析中用于识别未知化合物的高效方法。然而,现有的红外光谱计算方法与机器学习模型通常假设分子处于气相(gas phase),忽略了分子相态(phase dependency)对红外光谱的影响。针对这一问题,Gyoung S. Na*(通讯作者,单位:Korea Research Institute of Chemical Technology)在《Analytical Chemistry》期刊2024年第96卷(19659-19669页)发表了一项原创研究,提出了一种名为“Phase-Aware Spectrum Generative Network (PASGen)”的机器学习方法,首次实现了从二维分子结构生成相态依赖的红外光谱。以下为研究的详细报告。

学术背景

红外光谱通过测量分子对红外辐射的吸收,提供化学键和分子结构的关键信息,广泛应用于有机化学、材料科学等领域。传统计算方法(如密度泛函理论)需依赖耗时的分子结构优化,且假设理想环境(如绝对零温),难以处理实际复杂分子及相态效应。已有机器学习方法(如MPNN、AttentiveFP)虽能预测气相红外光谱,但无法处理相态差异导致的谱图变化。PASGen的提出填补了这一空白,目标是通过结合图神经网络(Graph Neural Network, GNN)与Transformer解码器,直接从二维分子结构和相态信息生成相态依赖的红外光谱。

研究流程与方法

  1. 数据集构建

    • 数据来源:从NIST Chemistry WebBook数据库收集11,546组实验测量的红外光谱,涵盖10,288个独特分子,相态包括固态(solid)、液态(liquid)和气态(gas)。
    • 预处理:对原始光谱进行多项式插值(polynomial interpolation)和Savitzky-Golay滤波,将吸光度(absorbance)转换为透射率(transmittance)。
  2. 模型架构
    PASGen由三部分组成:

    • 相态感知分子编码器(PAME):基于图神经网络,将分子结构(SMILES或InChi编码)与相态信息(one-hot向量)融合,生成相态依赖的分子嵌入(molecular embedding)。
      • 创新点:引入相态嵌入(phase embedding)至边特征(edge feature),通过注意力机制(attention mechanism)加权原子贡献(式6)。
    • 波数折叠层(WFL):采用滑动窗口(sliding window)将连续波数(wavenumber)分块,降低Transformer计算复杂度。
    • 条件光谱生成器(CSG):基于Transformer解码器,从分子嵌入和波数窗口生成透射率序列。
  3. 实验设计

    • 对比方法:包括非序列模型(MPNNFC、AttFPFC)和序列模型(MPNNTF、AttFPTF),以及传统频率计算方法(ORCA 5.0.2)。
    • 评估指标:均方根误差(RMSE)、对数误差(RMSLE)、距离相关性(Corr.)。

主要结果

  1. 生成精度

    • PASGen在NIST数据集上达到RMSE=0.079(较最佳对比模型MPNNTF降低29.46%),Corr.=0.895,显著优于现有方法(表1)。
    • 对含常见子结构(如苯环、羰基)的分子,PASGen的Corr.接近0.9(表2),且误差标准差降低50%。
  2. 相态适应性

    • 在子集Sub(含208个分子的多相态光谱)中,PASGen的RMSE为0.079,较MPNNTF(0.142)降低42.75%(图6a)。
    • 定性分析显示,PASGen成功捕捉2,5-二羟基苯乙酮(2,5-dihydroxypropiophenone)在固/气相中的峰位偏移(图6c),而MPNNTF因训练数据偏倚(气相占比高)无法生成固态光谱(图6b)。
  3. 计算效率

    • PASGen生成单张光谱仅需3毫秒,较传统频率计算方法(ORCA)提速262倍(图8a)。

结论与价值

  1. 科学意义

    • 首次实现从二维结构生成相态依赖的红外光谱,解决了传统方法忽略相态效应的局限性。
    • 通过Transformer解码器和滑动窗口机制,平衡了序列建模的精度与计算效率。
  2. 应用价值

研究亮点

  1. 方法创新
    • 提出PAME模块,将相态信息嵌入分子图表示;
    • 结合WFL与Transformer,首次实现窗口级光谱生成。
  2. 性能突破:在11,546组实验数据上验证了相态感知生成的必要性,误差降低近30%。
  3. 跨领域潜力:PASGen生成的分子嵌入(式14)可扩展至溶解度、自由能等分子属性预测任务(表4)。

其他价值

  • 局限性:对固态光谱的预测误差较高(RMSE=0.129),未来需优化数据平衡与相态编码。
  • 延伸应用:通过Transformer注意力机制解析峰位偏移的物理机制,有望推动可解释性研究。

该研究为计算化学与机器学习融合提供了范例,其相态感知框架可拓展至其他谱学分析领域。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com