基于深度学习的拉曼光谱定性分析算法:卷积神经网络与Transformer的融合研究
作者及机构
本研究的通讯作者为中国计量大学光学与电子科技学院的Pei Liang(梁培)与天津大学电气自动化与信息工程学院的Biao Sun(孙彪)。合作作者包括Zilong Wang(王子龙)、Yunfeng Li(李云峰)、Jinglei Zhai(翟静雷)、Siwei Yang(杨思威)等,分别来自中国计量大学、天津大学及厦门帕兰科技有限公司。研究发表于Elsevier旗下期刊《Talanta》第275卷(2024年),文章编号126138,在线发布于2024年4月25日。
学术背景
拉曼光谱(Raman spectroscopy)是一种无损检测技术,能够通过分子振动指纹提供物质化学结构的详细信息。然而,传统化学计量学算法(chemometric algorithms)在分析混合物拉曼光谱时面临两大挑战:
1. 光谱重叠:混合物中多组分信号的非线性叠加导致特征峰难以区分;
2. 噪声干扰:基线漂移和随机噪声降低特征峰识别精度。
尽管深度学习在图像识别、语音处理等领域已取得突破,但其在拉曼光谱分析中的应用仍处于探索阶段。现有方法如RamixNet和DeepCID存在数据准备繁琐或模型解释性不足的缺陷。本研究提出了一种新型算法RST(Raman Spectral Translation),结合卷积神经网络(CNN)与Transformer架构,旨在实现无需预处理的混合物组分高精度定性分析,并增强模型的可解释性。
研究流程
1. 数据准备与增强
- 研究对象:15种纯物质、20种二元混合物、15种三元混合物、15种四元混合物及10种五元混合物,共75种物质。
- 数据采集:使用Horiba LabRAM HR Evolution拉曼显微镜光谱仪,光谱范围200–2200 cm⁻¹,分辨率0.35 cm⁻¹,激发波长覆盖325 nm至785 nm。
- 数据增强:通过线性组合纯物质光谱生成合成数据(公式1-2),例如乙二醇与乙腈按随机比例混合,增强模型泛化能力。
RST网络架构
损失函数设计
模型验证与参数优化
表面增强拉曼光谱(SERS)验证
主要结果与逻辑关联
1. 特征提取能力:RST通过词向量划分和注意力机制,显著提升了对重叠峰与噪声的鲁棒性。例如,在乙二醇-环己烷(4:1)混合物中,模型不仅识别出主峰贡献,还捕捉到相邻词向量的辅助特征(图4b)。
2. 数据依赖性:模型对高频特征峰区域(如856.25–887.5 cm⁻¹)存在权重偏置(图5),反映训练数据分布对注意力机制的影响。
3. 泛化性能:在SERS实验中,RST对低浓度(10⁻⁹ mol/L)探针分子的识别能力远超传统CNN(表5),证实其适用于复杂实际样本。
结论与价值
1. 科学价值:RST首次将Transformer的注意力机制引入拉曼光谱分析,通过可解释的权重映射揭示了混合物光谱与纯物质间的定量贡献关系。
2. 应用价值:该算法在食品安全(农药残留检测)、生命科学(低浓度生物标记物分析)等领域具有潜力,尤其适合便携式拉曼设备的实时检测需求。
3. 局限性:对超低浓度(<10%)混合物的定量分析仍需优化,未来可通过扩展词向量维度或引入对抗训练进一步提升精度。
研究亮点
1. 方法创新:融合CNN的局部特征提取与Transformer的全局注意力机制,实现端到端的混合物定性分析;
2. 技术突破:无需预处理(如去噪、基线校正),直接处理原始光谱,简化工作流程;
3. 可解释性:可视化词向量贡献权重(图4-5),为光谱解析提供新视角。
其他价值
研究开源了数据增强代码与模型架构,为后续复杂混合物(如医药多晶型)分析奠定基础。国家重点研发计划(2022YFF0606702)和国家自然科学基金(22174133、1210042018)为本研究提供了支持。