本研究由浙江工业大学化学工程学院的Mengfei Zhou、Yinchao Hu、Ruizhen Wang、Tian Guo、Qiqing Yu、Luyue Xia和Xiaofang Sun合作完成,发表于*Journal of Chemometrics*(2023年2月,DOI: 10.1002/cem.3464)。研究得到浙江省公益技术应用研究项目(LGF20E090005)和国家自然科学基金(21676251)的资助。
拉曼光谱(Raman spectroscopy)作为一种快速、无损、无需样品前处理的分析技术,广泛应用于石化、材料、食品、生物医学等领域。然而,拉曼信号易受荧光干扰、环境噪声和基线漂移影响,传统分析方法依赖复杂的预处理(如平滑、基线校正)和特征工程,可能丢失有效信息。近年来,机器学习(ML)和深度学习(DL)在光谱识别中的应用逐渐兴起,但现有方法存在以下问题:
1. 过度依赖特征工程:传统方法需人工提取特征峰;
2. 噪声敏感:高噪声或未标准化数据导致模型性能下降;
3. 模型效率与精度难以平衡:复杂模型训练速度慢。
为此,本研究提出了一种端到端的深度学习模型——深度残差收缩VGG(Deep Residual Shrinkage-VGG, DRS-VGG),旨在通过自适应噪声抑制和特征提取,实现高精度、高效率的拉曼光谱分类。
研究选用三个公开数据集:
- 矿物(P)数据集:来自RRUFF数据库的excellent_oriented/unoriented子集,包含266类4896条光谱,已进行去噪和基线校正;
- 矿物(R)数据集:来自RRUFF的unrated_oriented/unoriented子集,包含343类5618条原始光谱,未经过任何预处理;
- 细菌数据集:30种病原体的6万条光谱,信号弱、噪声高。
预处理步骤:
- 分段线性插值:将光谱统一采样至50–1650 cm⁻¹范围(1601个数据点),超出范围补零;
- 归一化:仅对矿物(P)数据集进行最小-最大值归一化(Min-Max Normalization),细菌数据集因原始强度差异大需额外处理。
模型基于VGG19架构,创新性引入深度残差收缩块(DRS Block),核心设计如下:
- 残差连接(Identity Shortcut):解决深层网络梯度消失问题,提升训练效率;
- 软阈值化(Soft Thresholding):通过注意力机制自动学习通道阈值,抑制无关特征:
math \hat{z}_{ij} = \text{sign}(z_{ij}) \cdot \max(0, |z_{ij}| - \tau_i), \quad \tau_i = \lambda_i w_i
其中,阈值τ由全局平均池化(GAP)和全连接层动态生成。
- 网络结构:包含4个卷积块(步长3,通道数64/128)、2个DRS块和3个全连接层,采用ReLU激活函数和Dropout(比率0.5)防止过拟合。
为压缩模型规模,采用多项式衰减稀疏策略:
- 逐步将接近0的权重置零,稀疏度从0增至目标值(如60%);
- 微调偏置项以恢复精度,实验表明60%稀疏度下模型大小减少52.64%,分类准确率反升0.46%。
DRS-VGG在三个数据集上的表现显著优于传统方法:
- 矿物(P)数据集:Top-1准确率97.84%,较次优模型(PCA-SVM)提升1.38%;
- 矿物(R)数据集:Top-1准确率92.81%,较传统ML最高提升21.19%(KNN仅71.62%);
- 细菌数据集:Top-1准确率95.08%,F1分数0.9507。
通过梯度加权类激活映射(Grad-CAM)可视化模型关注的光谱区域。例如:
- 石膏(Gypsum):模型准确识别415 cm⁻¹([SO₄]²⁻弯曲振动)、1010 cm⁻¹(对称伸缩振动)等特征峰;
- 大肠杆菌(Escherichia coli):在极低信噪比下仍能区分细微差异。
本研究提出的DRS-VGG模型为拉曼光谱分析提供了高效、自动化的新范式,其端到端设计、自适应噪声抑制和模型压缩技术具有广泛的学术与工业应用潜力。未来工作可探索结构化剪枝(Structured Pruning)与量化技术的结合,进一步优化计算效率。