分享自:

整合分数阶导数处理土壤与叶片高光谱反射率以改进红树林土壤有机碳估算

期刊:geodermaDOI:10.1016/j.geoderma.2025.117324

在*Geoderma*期刊于2025年发表的题为“Integrating fractional-order derivatives of soil and leaf hyperspectral reflectance for improved estimation of mangrove soil organic carbon”的研究中,作者罗益波(Yibo Luo)、李春林(Chunlin Li)、黄晋宏(Jinhong Huang)、董程程(Chengcheng Dong)与王俊杰(Junjie Wang,通讯作者)所在的深圳大学团队,联合北京大学团队,提出了一种用于估算红树林土壤有机碳(Soil Organic Carbon, SOC)的创新框架。这一工作为精准计量蓝碳、支持红树林可持续保护与管理提供了重要的技术途径。

红树林生态系统作为高生产力的海岸带栖息地,在全球碳循环中扮演着关键角色,其土壤是高效且长期的碳汇。然而,由于动态变化的植被覆盖造成的光谱干扰,利用遥感技术准确估算红树林土壤有机碳仍面临挑战。传统的化学测量方法虽准确但耗时费力,难以用于大规模评估。基于土壤反射光谱的遥感估算模型则常因未考虑植被覆盖的影响而精度受限。近期研究表明,植被光谱与土壤特性之间存在强关联,叶片光谱不仅能反映植物对环境变化的适应,也能间接揭示土壤特征。尽管如此,将土壤与叶片反射光谱协同用于红树林SOC估算的研究仍十分有限。此外,高光谱数据常存在高光谱冗余与多重共线性,传统整数阶导数预处理在增强光谱区分度时可能放大噪声或过度平滑关键特征。分数阶导数(Fractional-Order Derivative, FOD)技术作为一种更灵活、抗噪性更强的替代方案,通过调整分数阶参数,能在保留原始信号完整性的同时增强微弱光谱特征,但其在模拟红树林这类植被-土壤混合光谱方面的潜力尚未得到充分探索。在模型构建方面,机器学习算法如随机森林(Random Forest, RF)、极限梯度提升(Extreme Gradient Boosting, XGBoost)和类别梯度提升(Categorical Boosting, CatBoost)已广泛应用于土壤属性建模,但CatBoost在SOC预测中的应用较少。同时,土壤铁含量、粘土含量、pH、盐度、氧化还原电位及地形等环境因素对SOC有重要影响,却常被基于高光谱的SOC模型所忽视。为应对上述挑战,本研究旨在整合土壤与叶片高光谱反射率的分数阶导数来估算红树林SOC含量,并探究将关键环境变量纳入模型框架以提升预测精度的潜力。

本研究的工作流程系统而详尽,共包含多个关键步骤。首先,研究团队于2017年4月在中国南方五个红树林湿地(深圳福田、党江镇、北海滨海、山口、高桥)共设置了201个采样点,采集了表层土壤样品和健康红树林叶片。所有土壤样品经风干、研磨后,用于测定土壤有机碳含量及粘土含量、铁浓度、盐度、pH、氧化还原电位等理化性质。叶片与土壤的高光谱反射率使用ASD FieldSpec 4地物光谱仪在暗室可控条件下测量,光谱范围覆盖350-2500纳米,测量前经标准白板校准,并对原始光谱进行了噪声波段剔除和Savitzky-Golay滤波平滑处理。

研究的核心创新点之一在于对光谱数据的预处理与混合模拟。团队对平滑后的土壤和叶片反射光谱应用了Grünwald-Letnikov方法的分数阶导数分析,阶数α从0到2以0.2为间隔,共生成11种不同阶数的FOD光谱。随后,采用线性光谱混合模型,模拟了从0%(裸土)到100%(全植被覆盖)共11个植被覆盖水平下红树林群落的反射光谱。具体公式为R_sim = w_soil × R_soil + w_leaf × R_leaf,其中权重w_soil和w_leaf根据植被覆盖比例设定,总和为1。例如,10%植被覆盖对应的权重为w_soil=0.9, w_leaf=0.1。此步骤生成了包含11种FOD阶数×11种植被覆盖水平的共121个模拟光谱数据集。

接下来是特征选择与模型构建。对于每个植被覆盖类型下的FOD光谱数据集,研究采用SHAP-XGBoost方法来识别对SOC估算敏感的波长。SHAP方法基于博弈论,能够量化每个特征对模型预测的贡献。通过计算各波段SHAP值,并逐步添加贡献最高的波段构建XGBoost模型进行交叉验证,以均方根误差改善小于1%为终止条件,最终确定每个情景下的最优敏感波长子集。基于这些敏感波长,研究构建了总计363种建模策略进行SOC估算,涵盖了3种机器学习算法(RF, XGBoost, CatBoost)、11种FOD阶数及11种植被覆盖水平。为确保数据划分的均衡性,样本按SOC值降序排列后循环标记,分成134个训练样本和67个测试样本。模型性能通过决定系数和均方根误差进行评估。

此外,研究还评估了模型在不同区域和红树林群落间的适用性,并系统分析了环境因素对SOC估算的影响。选取了六项土壤属性(粘土、粉砂、pH、铁、盐度、氧化还原电位)和三项地形参数(离岸距离、坡度、高程)共九个环境变量。首先通过SHAP分析确定各变量对SOC变化的重要性排序,然后将其按重要性降序依次加入到仅包含敏感波长的最优光谱模型中,评估其对不同植被覆盖水平下模型预测精度的提升效果。

本研究取得了一系列重要结果。首先,在SOC含量分析上,方差分析显示不同区域间的SOC含量存在显著差异,但不同红树林群落类型间的差异不显著。深圳福田区域的SOC平均值最高,北海滨海区域最低,表明区域环境因素是驱动SOC变异的主要因素。

其次,光谱分析表明,FOD技术有效增强了微弱的光谱吸收特征。与原始平滑光谱相比,0.2至2.0阶的FOD光谱在750、1150、1400和1900纳米附近的光谱吸收峰与谷变得更加清晰。随着分数阶阶数增加,不同植被覆盖下的反射率值逐渐向零基线收敛,基线漂移和峰重叠减少。相关性分析显示,SOC含量与FOD光谱在特定波段存在显著相关,且相关最强的波段位置随植被覆盖水平变化而移动。例如,在裸土和低植被覆盖下,最高相关系数出现在一阶导数光谱的~900纳米附近;而当植被覆盖超过30%后,最强负相关则出现在~2250纳米附近。

第三,在模型性能方面,整合了土壤与叶片FOD反射光谱的模型显著提升了SOC估算精度。在363种建模策略中,表现最优的是在10%植被覆盖下、使用1.2阶FOD光谱敏感波长构建的CatBoost模型,其验证R²达到0.730,RMSE为0.858%。总体而言,分数阶在0.8至1.4之间时模型表现 consistently 更优;1.0阶在20-50%植被覆盖下表现最佳。模型精度随植被覆盖增加呈下降趋势,10%覆盖时平均精度最高,90%时最低,但100%全植被覆盖时的精度略优于90%,表明高覆盖并不必然导致最差估算。在不同算法比较中,CatBoost在0-70%植被覆盖下 consistently 优于XGBoost和RF。

第四,SHAP分析筛选出的SOC敏感波长主要集中分布在400-1100纳米和2100-2300纳米范围。局部敏感性分析显示,高SHAP贡献率的波段通常也具有较高的局部敏感性,但二者并非总是一一对应,揭示了光谱敏感性与模型可解释性之间关系的复杂性。

第五,模型适用性评估显示,在低植被覆盖下,最优模型在不同区域和群落间均保持了较高的估算精度。其中,党江镇区域的模型表现最佳,而北海滨海区域以及海榄雌群落的表现相对较弱,说明了模型性能受地域和生物群落特征的影响。

第六,也是关键的一点,环境因素的加入显著改善了SOC估算模型。土壤铁含量被识别为对SOC变异最重要的环境因子。将环境变量按重要性排序(铁 > 粘土 > pH > 盐度 > 氧化还原电位 > 高程 > 坡度 > 离岸距离 > 粉砂)依次加入光谱模型后,在大多数植被覆盖水平下,模型预测精度得到了提升。提升幅度最大的是在0%、20%、50%和90%植被覆盖下,加入前六个重要因素后,R²提升了6.22%至14.70%,RMSE降低了5.76%至14.27%。这凸显了光谱信号、土壤特性与地形特征在SOC建模中的互补作用。

本研究的结论明确而富有价值。首先,研究证实了耦合土壤与叶片分数阶导数反射光谱是一种估算红树林SOC的有效新方法,特别是在低植被覆盖条件下(如10%),土壤信号占主导且植被有机质输入开始显现时,模型能达到最高精度。其次,分数阶导数技术优于传统整数阶导数,其最优阶数范围(0.8-1.4)适用于捕捉红树林复杂环境下的细微光谱变化。第三,CatBoost算法与SHAP特征选择相结合,能够有效捕捉SOC的光谱变异。第四,纳入关键的土壤和地形环境变量能进一步显著提升SOC估算的准确性。这一集成框架为推进蓝碳核算、支持变化环境下的红树林可持续保护与管理提供了有力的工具。

本研究的亮点在于其方法的系统创新性与结果的启发性。亮点一在于创新性地将土壤与叶片高光谱反射率通过分数阶导数预处理和线性混合模型进行整合,系统模拟了连续植被覆盖梯度下的光谱特征,从而精细刻画了植被-土壤相互作用对SOC估算的影响。亮点二在于充分挖掘了分数阶导数技术在复杂生态系统光谱分析中的潜力,并确定了其在红树林SOC估算中的最优参数范围。亮点三在于采用了SHAP这一可解释机器学习方法进行特征选择,增强了模型的可解释性,并明确了关键敏感波段。亮点四在于没有局限于光谱数据,而是系统地评估并整合了关键的土壤理化属性与地形因子,构建了更全面、更稳健的SOC估算模型,揭示了多源数据协同的价值。

当然,研究也存在一些局限性,例如研究区域限于中国南方,模型的全球普适性有待进一步验证;在植被高度密集区域,模型的精度仍有下降,表明从密闭冠层下提取土壤信息仍是挑战;未能纳入微生物活性等更多生物地球化学驱动因子。未来的研究可考虑结合卫星遥感数据以拓展应用尺度,并探索与其他先进模型架构的结合,以进一步提升红树林碳储量评估的准确性与可操作性。总体而言,这项研究为红树林土壤有机碳的遥感定量反演提供了一套方法论先进、考虑因素全面的重要框架,具有显著的科学意义与应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com