基于深度学习的拉曼光谱分析用于伪影去除

分享自：

基于深度学习的拉曼光谱分析用于伪影去除

生物物理及生物化学

分析化学

期刊:Advanced Optical MaterialsDOI:10.1002/adom.202500736

【点击此处】阅读全文、收藏及针对性提问

Joel Sjöberg、Nicoleta Siminea、Andrei Păun、Adrian Lita、Mioara Larion 和 Ion Petre*等作者在2025年7月2日的《Advanced Optical Materials》期刊上发表了一项原创研究，题为《RADAR: Raman Spectral Analysis Using Deep Learning for Artifact Removal》。研究提出了两种轻量级的深度学习模型——RADAR，用于解决拉曼光谱（Raman spectroscopy）中的基线漂移（baseline drift）、宇宙射线（cosmic rays）和仪器噪声（instrumental noise）等干扰问题。
拉曼光谱是一种非破坏性分析技术，通过分子振动信息精确识别化学物质及其材料特性。然而，其信号常被上述干扰污染，导致数据解释复杂化。现有预处理方法（如多项式拟合、滤波器）需人工调整参数且效率低下。为突破这一瓶颈，本研究开发了基于卷积神经网络（CNN）的自动化模型，首次实现了多组件（基线、宇宙射线、噪声、信号峰）的同步分离，且支持可变长度光谱输入。
研究团队来自芬兰图尔库大学（University of Turku）、罗马尼亚布加勒斯特大学（University of Bucharest）和美国国立卫生研究院（NIH）。研究目标包括：(1)建立合成数据生成器模拟真实光谱的四大组件；(2)开发参数量最小的光谱校正模型；(3)验证模型在生物与非生物样本中的泛化能力；(4)将数据采集时间缩短90%以上。
研究方法 1. 合成数据生成器开发
 设计数学框架独立生成基线（b）、宇宙射线（cr）、噪声（n）和信号峰（p）组件。基线采用线性/正弦/多项式/高斯/洛伦兹曲线的随机组合；峰信号由高斯/洛伦兹/伪Voigt函数构建，宽度随机在16-256像素间；噪声通过高斯分布生成，宇宙射线以随机强度插入。最终合成光谱通过max-normalization标准化，支持任意长度输出（默认1000数据点）。该生成器产生240万组训练数据，是模型参数量的34倍。
双模型架构设计
标准模型（585,779参数）：四输出CNN结构，直接预测b、cr、p，噪声通过残差计算获得。采用全局最大池化层替代全连接层，实现可变长度处理。
集成模型（280,592参数）：两级串联CNN，首级预测b/cr，次级利用残差预测p/n。引入跨级残差连接防止梯度消失。
训练协议
 采用学习率衰减策略训练12个epoch，每个epoch处理20M合成光谱（

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问