分享自:

基于深度学习的拉曼光谱分析用于伪影去除

期刊:Advanced Optical MaterialsDOI:10.1002/adom.202500736

Joel Sjöberg、Nicoleta Siminea、Andrei Păun、Adrian Lita、Mioara Larion 和 Ion Petre*等作者在2025年7月2日的《Advanced Optical Materials》期刊上发表了一项原创研究,题为《RADAR: Raman Spectral Analysis Using Deep Learning for Artifact Removal》。研究提出了两种轻量级的深度学习模型——RADAR,用于解决拉曼光谱(Raman spectroscopy)中的基线漂移(baseline drift)、宇宙射线(cosmic rays)和仪器噪声(instrumental noise)等干扰问题。

拉曼光谱是一种非破坏性分析技术,通过分子振动信息精确识别化学物质及其材料特性。然而,其信号常被上述干扰污染,导致数据解释复杂化。现有预处理方法(如多项式拟合、滤波器)需人工调整参数且效率低下。为突破这一瓶颈,本研究开发了基于卷积神经网络(CNN)的自动化模型,首次实现了多组件(基线、宇宙射线、噪声、信号峰)的同步分离,且支持可变长度光谱输入。

研究团队来自芬兰图尔库大学(University of Turku)、罗马尼亚布加勒斯特大学(University of Bucharest)和美国国立卫生研究院(NIH)。研究目标包括:(1)建立合成数据生成器模拟真实光谱的四大组件;(2)开发参数量最小的光谱校正模型;(3)验证模型在生物与非生物样本中的泛化能力;(4)将数据采集时间缩短90%以上。

研究方法 1. 合成数据生成器开发
设计数学框架独立生成基线(b)、宇宙射线(cr)、噪声(n)和信号峰(p)组件。基线采用线性/正弦/多项式/高斯/洛伦兹曲线的随机组合;峰信号由高斯/洛伦兹/伪Voigt函数构建,宽度随机在16-256像素间;噪声通过高斯分布生成,宇宙射线以随机强度插入。最终合成光谱通过max-normalization标准化,支持任意长度输出(默认1000数据点)。该生成器产生240万组训练数据,是模型参数量的34倍。

  1. 双模型架构设计

    • 标准模型(585,779参数):四输出CNN结构,直接预测b、cr、p,噪声通过残差计算获得。采用全局最大池化层替代全连接层,实现可变长度处理。
    • 集成模型(280,592参数):两级串联CNN,首级预测b/cr,次级利用残差预测p/n。引入跨级残差连接防止梯度消失。
  2. 训练协议
    采用学习率衰减策略训练12个epoch,每个epoch处理20M合成光谱(

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com