本研究由Haichao Zhou、Xiaodan Ma、Haiou Guan(通讯作者)等来自黑龙江八一农垦大学信息与电气工程学院及农学院的研究团队完成,发表于2025年的《Food Chemistry》期刊(Volume 493, 146054)。以下为详细学术报告:
一、学术背景
研究领域:本研究属于农业食品检测与近红外光谱分析(Near-Infrared Spectroscopy, NIR)交叉领域,聚焦玉米粗脂肪含量(crude fat content)的快速预测。
研究动机:传统脂肪检测方法(如索氏提取、气相色谱等)存在设备昂贵、操作复杂、破坏样本等问题,而NIR技术虽具有快速无损优势,但其高维数据存在吸收带宽重叠、非线性依赖等挑战。传统条件互信息最大化(Conditional Mutual Information Maximization, CMIM)算法在连续NIR光谱分析中难以捕捉非线性关系,且缺乏模型可解释性。
研究目标:提出结合改进CMIM与SHAP(SHapley Additive Explanations)分析的新框架,解决传统方法在NIR光谱中的适用性瓶颈,并为农产品质量检测提供技术支持。
二、研究流程
1. 实验材料与数据采集
- 样本:收集5个玉米品种(DMY1、DMY3等)共239个成熟籽粒样本,经105℃灭酶干燥、研磨过筛后制备粉末。
- 光谱采集:使用德国Bruker傅里叶变换NIR光谱仪(范围11,542–3,940 cm⁻¹,分辨率8 cm⁻¹),采用漫反射法获取平均光谱。
- 脂肪含量测定:依据国标GB/T 5512-2008,通过索氏提取法测定脂肪含量,数据由农业农村部东北低碳绿色农业重点实验室提供。
2. 改进CMIM特征选择方法
- 传统CMIM的局限:依赖离散化处理,导致连续光谱信息丢失。
- 改进策略:首次引入核密度估计(Kernel Density Estimation, KDE)替代离散化,直接计算连续变量的互信息(Mutual Information, MI)和条件互信息(CMI),构建两阶段过滤-封装式特征选择框架:
- 过滤阶段:基于CMIM对特征加权排序,筛选高相关性波段(如5684 cm⁻¹和4312 cm⁻¹处的C-H键吸收峰)。
- 封装阶段:通过偏最小二乘回归(PLSR)和支持向量回归(SVR)模型评估特征子集性能,采用10折交叉验证优化。
- 对比方法:同步测试直方图估计(HIS)、k近邻(KNN)、贝叶斯估计(BYS)等5种改进策略。
3. 模型构建与优化
- 算法选择:PLSR(处理多重共线性)和SVR(核函数处理非线性),后者参数通过灰狼优化算法(GWO)调优。
- 性能指标:R²P(预测决定系数)、RMSEP(预测均方根误差)、RPD(残差预测偏差)等。
4. SHAP可解释性分析
- 方法:基于博弈论量化特征贡献,揭示关键波段(如5684 cm⁻¹)对脂肪含量的正向/负向影响。
- 可视化:通过热力图和依赖图展示特征重要性及非线性效应。
三、主要结果
特征选择性能:
- CMIM_KDE方法在PLSR和SVR模型中分别达到R²P 0.7618和0.7531,较其他策略平均提升6.18%和4.42%。
- KDE优于其他改进策略(如HIS和BYS),因其能平衡局部与全局信息(图S4)。
模型对比:
- CMIM_KDE-PLSR的RPD为2.0491(>2,高预测精度),显著优于CARS、UVE等传统方法(表3)。
- 在公开数据集(片剂活性成分、土壤麦角固醇)中验证了泛化性,R²P平均达0.9136(图4)。
SHAP分析:
- PLSR模型中4889 cm⁻¹和5746 cm⁻¹波段对脂肪预测贡献显著(SHAP均值±0.52),且呈现双向非线性效应(图S6-S7)。
四、结论与价值
科学价值:
- 提出CMIM_KDE方法,突破传统CMIM处理连续NIR光谱的瓶颈,为高维非线性数据特征选择提供新范式。
- 结合SHAP增强模型可解释性,明确C-H键波段(如5684 cm⁻¹)与脂肪含量的化学关联。
应用价值:
- 为玉米高油种质资源筛选和品质评价提供快速无损检测技术,可扩展至其他农产品(如低空遥感和实时在线预测)。
五、研究亮点
- 方法创新:首次将KDE引入CMIM算法,避免离散化信息损失,并融合两阶段特征选择框架。
- 跨领域验证:在药物、土壤等多场景数据中验证方法普适性。
- 技术整合:首次将SHAP应用于NIR光谱模型解释,推动“黑箱”模型透明化。
六、其他价值
- 局限性:实验室环境数据需进一步验证复杂田间条件的适应性。
- 未来方向:结合深度学习优化互信息估计,扩展多年份/多区域样本以提升鲁棒性。
(注:文中图表编号“S1-S7”为原文补充材料,未在报告中展示细节。)