分享自:

基于可解释集成机器学习的土壤表层 pH 值空间分布预测及影响因素

期刊:环境科学DOI:10.13227/j.hjkx.202501047

基于可解释集成机器学习的土壤表层pH值空间分布预测及影响因素研究学术报告

作者及发表信息
本研究由汪立(浙江大学公共管理学院/美国宾夕法尼亚大学)、樊后宝(南京大学地理与海洋科学学院)、张晏维(海南大学国际商学院)、谭永忠(浙江大学土地与国家发展研究院)合作完成,发表于《环境科学》(Environmental Science)2025年网络首发,DOI:10.13227/j.hjkx.202501047。


学术背景
科学领域与研究意义
土壤pH值是土壤健康与生态功能的核心指标,其空间异质性受自然与人为因素双重影响。全球土壤酸化问题威胁农业可持续性与生态安全,而传统预测方法(如统计模型、物理模型)存在线性假设局限或参数依赖性强的问题。机器学习虽能提升预测精度,但“黑箱”特性阻碍了机制解析。本研究聚焦川南丘陵区,通过可解释集成机器学习(Interpretable Ensemble Machine Learning, EML)融合多模型优势,首次量化了土壤pH驱动因子的阈值效应与协同机制,为土壤酸化治理提供算法创新与生态学解释并重的决策工具。

研究目标
1. 构建高精度土壤pH空间预测模型;
2. 揭示关键影响因素的贡献率及交互作用;
3. 提出土壤酸碱度调控的科学依据。


研究流程与方法
1. 数据采集与预处理
- 采样设计:在川南丘陵区(四川盆地东南部,2.9万km²)布设1795个土壤样点,覆盖紫色土(48.4%)和水稻土(40.7%)等主要土类,采用五点取样法混合采样,记录GPS坐标、理化指标及环境数据。
- 影响因子:筛选12项指标,包括土壤全钾(TK)、容重(BD)、有机碳(SOC)等化学/物理性质,以及年均降雨量(Rain)、气温(Temp)等环境因子。通过皮尔逊相关性分析与方差膨胀因子(VIF)剔除砂粒(VIF=20.8)以消除共线性。
- 数据归一化:对偏态分布的海拔和阳离子交换量取对数处理,栅格数据统一重采样至250m分辨率。

2. 模型构建与优化
- 基模型选择:对比随机森林(RF)、极端梯度提升(XGBoost, XGB)、支持向量机(SVR)和神经网络(ANN)四类算法,参数经贝叶斯优化(如RF的决策树数量=500,XGB学习率=0.05)。
- 集成方法:采用Boosting(加权平均)和Stacking(元模型整合)两种EML算法,权重基于交叉验证R²优化(XGB:0.262,RF:0.258)。
- 可解释性分析:引入夏普利加性解释(SHAP, Shapley Additive Explanations)量化特征贡献,通过TreeExplainer(树模型)和KernelExplainer(监督模型)计算SHAP值。

3. 验证与评估
- 70%数据训练,30%测试,10倍交叉验证,以R²、均方根误差(RMSE)和平均绝对误差(MAE)评估性能。


主要结果
1. 模型性能对比
- 集成模型优势:Boosting算法预测精度最高(R²=0.862,RMSE=0.153),优于单一模型(XGB最佳单模型R²=0.842)。Stacking算法R²为0.830。
- 空间预测一致性:6种模型均显示研究区pH呈“北高南低”条块状分布,中性土壤(6.5

2. 驱动因子解析
- 贡献率排序:TK(18.63%)>BD(17.79%)>SOC(12.82%)>Rain(10.21%)。气候与化学因子主导,物理构型(如黏粒)贡献较弱。
- 阈值效应
- TK:16.25~17.34 g·kg⁻¹时显著提升pH(碱性离子交换),>17.83 g·kg⁻¹后贡献下降;
- SOC:>8.25 g·kg⁻¹时pH快速下降(有机酸释放);
- Rain:<1125 mm时pH降低,>1150 mm后回升(淋溶与缓冲平衡)。

3. 协同作用机制
- 关键交互:BD-TK(高容重增强TK正向效应)、SOC-Rain(高降雨缓解SOC酸化)等非线性组合。BD作为调节节点,低值时与SOC协同抑制pH,高值时与TK协同提升pH。


结论与价值
科学价值
1. 方法论创新:首次将EML与SHAP结合应用于土壤pH预测,突破单一模型局限,实现“预测-解释”双目标;
2. 机制发现:明确TK、BD等因子的贡献阈值及非对称交互效应,为酸化过程解析提供新证据链。

应用价值
- 指导川南丘陵区精准施肥(如TK优化区间)、有机质管理(SOC阈值控制)及气候适应性耕作(Rain调控)。
- 技术框架可推广至其他土壤属性预测,支持《土壤环境质量》等标准实施。


研究亮点
1. 高精度集成建模:Boosting算法R²达0.862,显著优于传统方法;
2. 可解释性突破:SHAP揭示因子贡献的物理意义,化解机器学习“黑箱”难题;
3. 区域特异性:针对紫色岩风化成土母质(占60.8%)的酸化机制,提出差异化治理策略。

其他发现
- 成土母质类型影响显著:紫色岩类风化物pH最高(6.91),结晶岩类最低(6.47);
- 空间异质性提示需分区调控,如宜宾市东部需重点改良酸性土壤。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com