Joel Sjöberg、Nicoleta Siminea、Andrei Păun、Adrian Lita、Mioara Larion 和 Ion Petre*等作者在2025年7月2日的《Advanced Optical Materials》期刊上发表了一项原创研究,题为《RADAR: Raman Spectral Analysis Using Deep Learning for Artifact Removal》。研究提出了两种轻量级的深度学习模型——RADAR,用于解决拉曼光谱(Raman spectroscopy)中的基线漂移(baseline drift)、宇宙射线(cosmic rays)和仪器噪声(instrumental noise)等干扰问题。
拉曼光谱是一种非破坏性分析技术,通过分子振动信息精确识别化学物质及其材料特性。然而,其信号常被上述干扰污染,导致数据解释复杂化。现有预处理方法(如多项式拟合、滤波器)需人工调整参数且效率低下。为突破这一瓶颈,本研究开发了基于卷积神经网络(CNN)的自动化模型,首次实现了多组件(基线、宇宙射线、噪声、信号峰)的同步分离,且支持可变长度光谱输入。
研究团队来自芬兰图尔库大学(University of Turku)、罗马尼亚布加勒斯特大学(University of Bucharest)和美国国立卫生研究院(NIH)。研究目标包括:(1)建立合成数据生成器模拟真实光谱的四大组件;(2)开发参数量最小的光谱校正模型;(3)验证模型在生物与非生物样本中的泛化能力;(4)将数据采集时间缩短90%以上。
研究方法 1. 合成数据生成器开发
设计数学框架独立生成基线(b)、宇宙射线(cr)、噪声(n)和信号峰(p)组件。基线采用线性/正弦/多项式/高斯/洛伦兹曲线的随机组合;峰信号由高斯/洛伦兹/伪Voigt函数构建,宽度随机在16-256像素间;噪声通过高斯分布生成,宇宙射线以随机强度插入。最终合成光谱通过max-normalization标准化,支持任意长度输出(默认1000数据点)。该生成器产生240万组训练数据,是模型参数量的34倍。
双模型架构设计
训练协议
采用学习率衰减策略训练12个epoch,每个epoch处理20M合成光谱(