使用机器学习模型支持土壤和土地评估的可见-近红外光谱响应研究

分享自：
使用机器学习模型支持土壤和土地评估的可见-近红外光谱响应研究

化学
农学
期刊:GeodermaDOI:10.1016/j.geoderma.2021.115451
【点击此处】阅读全文、收藏及针对性提问
类型a
主要作者与机构及发表信息
 该研究的主要作者为Stanisław Gruszczyński和Wojciech Gruszczyński，他们均来自波兰AGH科技大学（AGH University of Science and Technology）的矿业测量与环境工程学院。这篇论文发表于《Geoderma》期刊，出版时间为2021年9月15日在线发布，正式刊发时间为2022年。
学术背景
 该研究属于土壤科学领域，具体聚焦于利用机器学习模型和可见光-近红外（Vis-NIR）光谱技术进行土壤特性的预测与评估。传统的土壤物理化学特性测定方法通常依赖实验室分析，这不仅耗时且成本高昂。而Vis-NIR光谱技术因其快速、无损的特点，近年来被广泛应用于土壤属性的定量估算中。然而，如何通过Vis-NIR光谱直接或间接评估表层土壤质量指数（Topsoil Quality Index, TQI）仍是一个未充分探索的问题。本研究旨在：(1) 利用Vis-NIR光谱预测土壤特性；(2) 评估不同模型在预测误差方面的表现；(3) 开发一种支持土壤与土地评估的表层土壤质量指数。
研究流程
 该研究分为以下几个步骤：
数据来源与预处理
 研究使用了欧盟项目“土地利用与覆盖面积框架调查”（LUCAS）数据库中的Vis-NIR光谱数据。该数据库包含约20,000个采样点的土壤样本，涵盖欧洲25个国家的耕地、草地和森林。研究人员选择了矿物土壤样本（17,216个点），并从中随机划分出训练集（12,898个样本）和验证集（4,318个样本）。光谱数据范围为400至2,500 nm，但由于低于500 nm的数据存在仪器伪影，研究仅分析了500至2,500 nm范围内的数据。光谱数据经过标准化变量变换（SNV）和归一化处理。
建模方法
 研究测试了三种不同的机器学习模型：
堆叠自编码器（Stacked Autoencoder, SAE）：结合自编码器和多层感知机（MLP）网络，用于降维和特征提取。
 
一维卷积神经网络（1D Convolutional Neural Network, CNN）：通过卷积层和最大池化层提取光谱特征，并利用全连接层进行回归预测。
 
堆叠集成模型（Stacked Ensemble）：由100个MLP模型组成的基础层（Level-0），每个模型处理20 nm波长范围的光谱片段，随后将结果输入到支持向量机（SVM）或自动机器学习（AutoML）算法中生成最终预测。
 
实验设计
 模型的目标是预测六个土壤特性：粘土含量（Clay）、CaCl₂溶液中的pH值（pH）、有机碳含量（SOC）、碳酸钙含量（CaCO₃）、氮含量（N）和阳离子交换容量（CEC）。此外，研究还尝试直接基于Vis-NIR光谱预测TQI，并将其与基于单个土壤特性预测的间接方法进行比较。
数据分析
 研究使用了多种统计指标评估模型性能，包括决定系数（R²）、均方根误差（RMSE）、相对预测误差指数（RPIQ）以及偏差（Bias）。对于TQI的计算，研究采用了模糊隶属函数方法，将六个土壤特性归一化后加权平均。
主要结果
 1. 模型性能对比
 - CNN模型在大多数土壤特性的预测中表现最佳，其RMSE值最低，R²值最高。例如，在预测SOC时，CNN模型的RMSE为8.9 g/kg，R²为0.79。
 - 堆叠集成模型（StackAuto）在所有变量的预测准确性上优于其他模型，特别是在SOC和CEC的预测中表现突出。
 - 堆叠自编码器（SAE）模型的表现相对较差，尤其是在预测CaCO₃含量时，尽管其R²值较高，但RMSE值较大，表明其对极端值的预测能力有限。
局部RMSE分析
 研究发现，随着土壤特性值的增加，预测误差（RMSE）也呈现上升趋势。这种现象主要归因于数据分布的不对称性。例如，CaCO₃含量较低的样本占主导地位，导致模型在低值区域的拟合效果更好，而在高值区域的误差较大。
TQI预测结果
基于堆叠集成模型（StackAuto）和CNN模型的间接TQI预测表现最佳，其RMSE值分别为0.08和0.07，R²值分别为0.78和0.81。
 
直接基于Vis-NIR光谱预测TQI的方法虽然简化了流程，但无法提供单个土壤特性的估计误差，因此实用性较低。
结论与意义
 该研究表明，Vis-NIR光谱技术结合机器学习模型可以有效预测土壤特性，并支持土壤与土地分类任务。CNN和堆叠集成模型在处理大规模、高变异性的数据时表现出色，尤其适用于需要同时预测多个土壤特性的场景。TQI的开发为表层土壤质量的综合评估提供了新工具，其模糊隶属函数方法能够反映土壤特性的非线性关系。此外，研究强调了数据分布对模型预测误差的影响，指出在实际应用中需根据土壤特性值范围调整模型的适用性。
研究亮点
 1. 重要发现：CNN和堆叠集成模型在预测土壤特性方面表现优异，特别是堆叠集成模型在处理高变异性数据时具有显著优势。
 2. 方法创新：研究首次尝试直接基于Vis-NIR光谱预测TQI，并将其与间接方法进行了系统比较。
 3. 特殊性：研究使用的LUCAS数据库涵盖了广泛的土壤类型和地理区域，为模型的普适性验证提供了坚实基础。
其他有价值内容
 研究还探讨了Vis-NIR光谱技术在野外条件下的局限性，例如土壤湿度和地质差异对光谱响应的影响。此外，作者建议未来研究可扩展光谱范围至中红外（MIR），以进一步提高预测精度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问