学术研究报告
本次报告介绍一项由吕陈、张乃驰、裴晨浩、申捷、喻恺、刘存、胡文友、王小治、吴同亮、王玉军等研究人员共同完成的研究成果。研究团队主要来自扬州大学环境科学与工程学院、中国科学院南京土壤研究所(土壤与农业可持续发展全国重点实验室)、中国科学院大学以及南昌航空大学环境与化学工程学院。该项研究以论文形式发表于《农业环境科学学报》2025年第44卷第11期,论文标题为《基于XRF光谱特征筛选与机器学习的土壤砷检测与风险评估》。
本研究隶属于环境科学与农业土壤污染监测领域。土壤重金属污染是全球性的环境挑战,其中砷(As)因其毒性和持久性,对人体健康和生态安全构成严重威胁。传统的土壤重金属检测方法(如三酸消解结合原子荧光光谱法AFS)虽然准确,但存在流程繁琐、耗时耗力、成本高昂等缺点,难以满足大范围、快速土壤污染普查与风险评估的迫切需求。便携式X射线荧光光谱(X-ray Fluorescence Spectroscopy, XRF)技术以其快速、经济、原位无损的优势,被视为一种有潜力的替代方案。然而,在复杂的土壤基质环境中,XRF技术面临基体效应和谱线干扰的挑战,导致其对痕量重金属(如低浓度砷)的检测限(Limit of Detection, LoD)偏高、准确度不足,限制了其在精准定量与风险评估中的直接应用。因此,如何通过算法优化和数据处理,显著提升便携式XRF对土壤砷的定量分析精度,并将其可靠地应用于健康风险评估,是本研究的核心出发点。
本研究的核心目标在于:1)开发一种结合光谱预处理、特征波长筛选和机器学习建模的集成方法,显著降低XRF对土壤砷的检测限,并构建高精度的砷浓度反演模型;2)通过外部独立样本验证所构建模型的准确性和鲁棒性;3)将模型预测结果应用于区域土壤砷污染的健康风险评估实践,验证该快速检测与评估方法的可行性与优势。
本研究设计严谨,流程环环相扣,主要包括以下三个关键环节:光谱数据预处理与特征筛选、机器学习模型构建与优化、以及模型应用与健康风险评估。
第一环节:样品采集、处理与光谱数据获取 研究对象分为标准样品和实际土壤样品。首先,研究者选取了35份国家标准土壤样品(GSB和GSS系列),其砷含量范围覆盖从背景值(2.0-30 mg/kg)到高污染(>120 mg/kg)的多个梯度,旨在训练和评估模型在不同污染水平下的普适性。其次,为进行外部验证,研究团队于2024年6月在浙江绍兴某典型矿区周边农田,采用网格采样法采集了60份地表土壤样品。所有样品经风干、去杂、研磨、过筛(100目)和干燥后备用。 样品测试采用赛默飞便携式XRF光谱仪(Niton XL3t 960)。对每个样品,在压实密封后进行30秒连续测试,获得原始XRF光谱数据以及仪器内置基本参数法(Fundamental Parameters, FP)计算的砷含量作为参照。同时,所有样品均采用标准的三酸消解-AFS法测定砷含量,以此作为建模和验证的“地面真值”(Ground Truth)。
第二环节:光谱预处理、特征筛选与模型构建(核心方法学创新) 这是本研究的核心创新部分,旨在从原始光谱中提取与砷含量最相关的有效信息,并建立高精度预测模型。 1. 光谱预处理:为抑制高频噪声和扣除背景基线,研究采用了Savitzky-Golay (SG)滤波与自适应迭代惩罚最小二乘法 (Adaptive Iteratively Reweighted Penalized Least Squares, airPLS) 相结合的方法。SG滤波(窗口大小为3,多项式阶数为2)用于平滑数据并保留光谱特征细节。随后,airPLS算法(平滑强度系数100,最大迭代次数50)被用来智能地估计并扣除变化的基线,从而凸显出元素特征峰。 2. 特征波长筛选:原始XRF光谱包含4000个通道,信息冗余度高。为提高模型效率和针对性,研究采用了两步特征筛选策略。 * 第一步:相关能谱选择 (Correlated Spectral Selection, CSS)。该算法初步筛选出与砷元素特征峰高度相关的能量区间(约8–13 keV),将通道数从4000个压缩至约300个,有效去除了大量无关波段。 * 第二步:竞争性自适应重加权采样 (Competitive Adaptive Reweighted Sampling, CARS)。在CSS筛选的基础上,进一步采用CARS算法进行精炼。CARS是一种基于蒙特卡罗采样和指数衰减机制的变量选择方法,它通过模拟“竞争”过程,评估每个波长变量的重要性,最终筛选出对预测砷含量贡献最大的特征子集。本研究经过100次采样和5折交叉验证,从CSS预选的约300个特征中最终确定了32个最具代表性的特征波长,其中包括砷(As Ka)的主峰以及汞(Hg Lα)和铅(Pb Lα)等干扰元素的特征谱线区域,这有助于模型学习并区分谱线重叠带来的干扰。
第三环节:外部验证与健康风险评估应用 为检验模型的泛化能力,研究将构建好的最优模型应用于完全独立的60份绍兴矿区土壤样本(外部验证集),预测其砷含量,并与AFS实测值及XRF仪器内置FP法结果进行对比。随后,基于模型预测的砷浓度空间分布数据,遵循中国《建设用地土壤污染风险评估技术导则》(HJ 25.3-2019),计算了研究区域内砷通过手口摄入、呼吸吸入和皮肤接触三种途径对成人和儿童造成的非致癌风险指数(HI)和致癌风险指数(CR)。最后,将基于模型预测结果的风险评估结果与基于传统AFS方法的结果进行统计比较,以验证快速评估方法的可靠性,并分析了其在时间、成本上的效益。
本研究成功建立并验证了一种基于XRF光谱特征筛选与机器学习建模的土壤砷快速、精准检测与风险评估集成方法。主要结论如下: 1. 方法学上,通过SG-airPLS预处理、CSS-CARS特征筛选与PLSR建模的有机结合,有效克服了便携式XRF在土壤基质中检测痕量砷的技术瓶颈,实现了检测限的大幅降低和预测精度的显著提升。 2. 实践应用上,所构建的SG-CSS-CARS-PLSR模型在实际矿区土壤样本的外部验证中表现出色,其预测精度可用于替代或补充传统实验室方法,进行可靠的土壤砷污染定量。 3. 该快速检测方法能够高效、经济地支撑区域土壤重金属健康风险评估,评估结果与传统方法等效,为大范围土壤污染普查、风险筛查与精准管理提供了强有力的技术工具,具有重要的应用价值和推广前景。
研究在讨论部分对模型表现差异进行了分析,指出XGBoost可能在光谱数据上容易过拟合,而PLSR的线性降维特性更适合处理此类高维共线数据,这为后续研究者选择模型提供了有价值的参考。此外,研究严格遵循了国内最新的风险评估技术导则(HJ 25.3-2019),并参考了国内权威的暴露参数,使得风险评估结果更符合中国国情,增强了研究的规范性和实用性。最后,文章附有对通讯作者王小治研究员和王玉军研究员的团队介绍,有助于读者了解该研究背后的科研力量与持续研究方向。