分享自:

基于XRF光谱特征筛选与机器学习的土壤砷检测与风险评估

期刊:农业环境科学学报DOI:10.11654/jaes.2025-0340

学术研究报告

本次报告介绍一项由吕陈、张乃驰、裴晨浩、申捷、喻恺、刘存、胡文友、王小治、吴同亮、王玉军等研究人员共同完成的研究成果。研究团队主要来自扬州大学环境科学与工程学院、中国科学院南京土壤研究所(土壤与农业可持续发展全国重点实验室)、中国科学院大学以及南昌航空大学环境与化学工程学院。该项研究以论文形式发表于《农业环境科学学报》2025年第44卷第11期,论文标题为《基于XRF光谱特征筛选与机器学习的土壤砷检测与风险评估》。

研究的学术背景

本研究隶属于环境科学与农业土壤污染监测领域。土壤重金属污染是全球性的环境挑战,其中砷(As)因其毒性和持久性,对人体健康和生态安全构成严重威胁。传统的土壤重金属检测方法(如三酸消解结合原子荧光光谱法AFS)虽然准确,但存在流程繁琐、耗时耗力、成本高昂等缺点,难以满足大范围、快速土壤污染普查与风险评估的迫切需求。便携式X射线荧光光谱(X-ray Fluorescence Spectroscopy, XRF)技术以其快速、经济、原位无损的优势,被视为一种有潜力的替代方案。然而,在复杂的土壤基质环境中,XRF技术面临基体效应和谱线干扰的挑战,导致其对痕量重金属(如低浓度砷)的检测限(Limit of Detection, LoD)偏高、准确度不足,限制了其在精准定量与风险评估中的直接应用。因此,如何通过算法优化和数据处理,显著提升便携式XRF对土壤砷的定量分析精度,并将其可靠地应用于健康风险评估,是本研究的核心出发点。

本研究的核心目标在于:1)开发一种结合光谱预处理、特征波长筛选和机器学习建模的集成方法,显著降低XRF对土壤砷的检测限,并构建高精度的砷浓度反演模型;2)通过外部独立样本验证所构建模型的准确性和鲁棒性;3)将模型预测结果应用于区域土壤砷污染的健康风险评估实践,验证该快速检测与评估方法的可行性与优势。

研究的详细工作流程

本研究设计严谨,流程环环相扣,主要包括以下三个关键环节:光谱数据预处理与特征筛选机器学习模型构建与优化、以及模型应用与健康风险评估

第一环节:样品采集、处理与光谱数据获取 研究对象分为标准样品和实际土壤样品。首先,研究者选取了35份国家标准土壤样品(GSB和GSS系列),其砷含量范围覆盖从背景值(2.0-30 mg/kg)到高污染(>120 mg/kg)的多个梯度,旨在训练和评估模型在不同污染水平下的普适性。其次,为进行外部验证,研究团队于2024年6月在浙江绍兴某典型矿区周边农田,采用网格采样法采集了60份地表土壤样品。所有样品经风干、去杂、研磨、过筛(100目)和干燥后备用。 样品测试采用赛默飞便携式XRF光谱仪(Niton XL3t 960)。对每个样品,在压实密封后进行30秒连续测试,获得原始XRF光谱数据以及仪器内置基本参数法(Fundamental Parameters, FP)计算的砷含量作为参照。同时,所有样品均采用标准的三酸消解-AFS法测定砷含量,以此作为建模和验证的“地面真值”(Ground Truth)。

第二环节:光谱预处理、特征筛选与模型构建(核心方法学创新) 这是本研究的核心创新部分,旨在从原始光谱中提取与砷含量最相关的有效信息,并建立高精度预测模型。 1. 光谱预处理:为抑制高频噪声和扣除背景基线,研究采用了Savitzky-Golay (SG)滤波自适应迭代惩罚最小二乘法 (Adaptive Iteratively Reweighted Penalized Least Squares, airPLS) 相结合的方法。SG滤波(窗口大小为3,多项式阶数为2)用于平滑数据并保留光谱特征细节。随后,airPLS算法(平滑强度系数100,最大迭代次数50)被用来智能地估计并扣除变化的基线,从而凸显出元素特征峰。 2. 特征波长筛选:原始XRF光谱包含4000个通道,信息冗余度高。为提高模型效率和针对性,研究采用了两步特征筛选策略。 * 第一步:相关能谱选择 (Correlated Spectral Selection, CSS)。该算法初步筛选出与砷元素特征峰高度相关的能量区间(约8–13 keV),将通道数从4000个压缩至约300个,有效去除了大量无关波段。 * 第二步:竞争性自适应重加权采样 (Competitive Adaptive Reweighted Sampling, CARS)。在CSS筛选的基础上,进一步采用CARS算法进行精炼。CARS是一种基于蒙特卡罗采样和指数衰减机制的变量选择方法,它通过模拟“竞争”过程,评估每个波长变量的重要性,最终筛选出对预测砷含量贡献最大的特征子集。本研究经过100次采样和5折交叉验证,从CSS预选的约300个特征中最终确定了32个最具代表性的特征波长,其中包括砷(As Ka)的主峰以及汞(Hg Lα)和铅(Pb Lα)等干扰元素的特征谱线区域,这有助于模型学习并区分谱线重叠带来的干扰。

  1. 机器学习模型构建与训练:基于上述筛选出的32个特征波长作为输入变量,以AFS测得的砷含量作为目标变量,研究构建并比较了三种主流的机器学习回归模型:
    • 偏最小二乘回归 (Partial Least Squares Regression, PLSR):一种适用于高维、共线性数据的线性建模方法,通过提取潜变量来建立关系。
    • 随机森林 (Random Forest, RF):一种基于Bagging的集成学习算法,通过构建多棵决策树并综合其结果来提升稳定性和准确性。
    • 极端梯度提升 (eXtreme Gradient Boosting, XGBoost):一种基于Boosting的高效集成算法,通过迭代构建决策树来最小化损失函数。 研究将35份标准土壤样本划分为训练集和测试集,用于模型训练和初步评估。所有模型均进行了系统性的超参数优化(PLSR通过选择最优主成分数;RF和XGBoost采用贝叶斯优化搜索最优参数组合)。最终形成的三个集成模型分别命名为SG-CSS-CARS-PLSR、SG-CSS-CARS-RF和SG-CSS-CARS-XGBoost。

第三环节:外部验证与健康风险评估应用 为检验模型的泛化能力,研究将构建好的最优模型应用于完全独立的60份绍兴矿区土壤样本(外部验证集),预测其砷含量,并与AFS实测值及XRF仪器内置FP法结果进行对比。随后,基于模型预测的砷浓度空间分布数据,遵循中国《建设用地土壤污染风险评估技术导则》(HJ 25.3-2019),计算了研究区域内砷通过手口摄入、呼吸吸入和皮肤接触三种途径对成人和儿童造成的非致癌风险指数(HI)和致癌风险指数(CR)。最后,将基于模型预测结果的风险评估结果与基于传统AFS方法的结果进行统计比较,以验证快速评估方法的可靠性,并分析了其在时间、成本上的效益。

研究的主要结果

  1. 检测限显著降低:通过SG-airPLS预处理算法优化后,基于响应值标准曲线斜率法计算,本方法将便携式XRF对土壤砷的检测限从仪器内置FP法的7 mg/kg显著降低至1.7 mg/kg。这为检测低浓度砷污染土壤提供了可能。
  2. 模型性能对比与最优模型选择:在标准土壤测试集上,三种模型中,SG-CSS-CARS-PLSR模型表现最优,其决定系数(R²)高达0.914,均方根误差(RMSE)为14.743 mg/kg。SG-CSS-CARS-RF模型表现次之(R²=0.738),而SG-CSS-CARS-XGBoost模型在测试集上R²仅为0.585,表现出明显的过拟合现象。这表明,对于本研究中高维、强共线性的光谱数据,线性降维模型PLSR相比复杂的树模型表现出更好的泛化能力和稳定性。
  3. 外部验证效果卓越:在浙江绍兴矿区外部验证集上,SG-CSS-CARS-PLSR模型再次展现出优异的预测性能,其预测值与AFS实测值的R²达到0.925,RMSE为5.984 mg/kg。相比之下,仪器内置FP法的预测结果R²仅为0.625,RMSE为9.470 mg/kg。本研究所建模型的整体预测精度相比仪器内置方法提升了36.8%,充分证明了该方法在真实复杂土壤环境中的有效性和优越性。
  4. 健康风险评估应用的可行性与优势:基于SG-CSS-CARS-PLSR模型预测结果进行的健康风险评估显示,研究区域内砷对成人和儿童的非致癌风险指数(HI)平均值分别为9.76×10⁻²和2.28×10⁻¹,致癌风险指数(CR)平均值分别为4.43×10⁻⁴和1.03×10⁻³。统计检验表明,这些风险评估结果与基于传统、费时费力的三酸消解-AFS法得到的结果无显著差异(p > 0.05)。然而,若直接使用XRF内置FP法的数据进行评估,则会产生系统性低估,68.3%的样点评估误差超过15%。空间分布图进一步揭示了研究区域中部及东南部为健康风险较高的热点区域。
  5. 效率与成本效益:该方法将土壤砷分析周期缩短了约65%,检测成本降低了约60%。同时,避免了传统消解方法产生大量酸性废液的二次污染问题,更具环境友好性和可持续性。

研究的结论与意义

本研究成功建立并验证了一种基于XRF光谱特征筛选与机器学习建模的土壤砷快速、精准检测与风险评估集成方法。主要结论如下: 1. 方法学上,通过SG-airPLS预处理、CSS-CARS特征筛选与PLSR建模的有机结合,有效克服了便携式XRF在土壤基质中检测痕量砷的技术瓶颈,实现了检测限的大幅降低和预测精度的显著提升。 2. 实践应用上,所构建的SG-CSS-CARS-PLSR模型在实际矿区土壤样本的外部验证中表现出色,其预测精度可用于替代或补充传统实验室方法,进行可靠的土壤砷污染定量。 3. 该快速检测方法能够高效、经济地支撑区域土壤重金属健康风险评估,评估结果与传统方法等效,为大范围土壤污染普查、风险筛查与精准管理提供了强有力的技术工具,具有重要的应用价值和推广前景

研究的亮点

  1. 方法集成创新:研究并非简单应用单一算法,而是构建了一个从光谱预处理(SG-airPLS)、特征工程(CSS-CARS)到机器学习建模(PLSR/RF/XGBoost)的完整、优化的技术链条,系统性解决了XRF定量土壤砷的精度问题。
  2. 显著的性能提升:将XRF对土壤砷的检测限从7 mg/kg降至1.7 mg/kg,模型预测精度相比仪器原方法提升36.8%,这些量化指标充分证明了方法的有效性。
  3. 完整的“检测-评估”闭环验证:研究不仅停留在模型预测性能的实验室验证,更进一步将模型输出应用于真实的健康风险评估,并与金标准方法进行统计学对比,完整证明了该快速技术路径在终端应用中的科学性和可靠性。
  4. 明确的实用价值与效益分析:明确给出了该方法在缩短分析周期(65%)和降低检测成本(60%)方面的量化优势,为其在实际环境监测与管理中的推广提供了令人信服的依据。

其他有价值的内容

研究在讨论部分对模型表现差异进行了分析,指出XGBoost可能在光谱数据上容易过拟合,而PLSR的线性降维特性更适合处理此类高维共线数据,这为后续研究者选择模型提供了有价值的参考。此外,研究严格遵循了国内最新的风险评估技术导则(HJ 25.3-2019),并参考了国内权威的暴露参数,使得风险评估结果更符合中国国情,增强了研究的规范性和实用性。最后,文章附有对通讯作者王小治研究员和王玉军研究员的团队介绍,有助于读者了解该研究背后的科研力量与持续研究方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com