分享自:

基于XGBoost和理化性质的红外反射光谱评估红树林沉积物重金属污染指数

期刊:CatenaDOI:10.1016/j.catena.2021.105967

基于可见-近红外反射光谱与XGBoost方法评估红树林沉积物重金属污染指数的研究

一、 研究团队与发表信息

本研究由赵德梅、王俊杰(通讯作者)、蒋夏鹏、甄佳宁、缪静、王靖哲、吴国锋共同完成。研究团队主要来自深圳大学的建筑与城市规划学院、生命与海洋科学学院,以及自然资源部大湾区地理环境监测重点实验室、广东省城市信息学重点实验室和深圳市空间智能感知与服务重点实验室。该研究于2022年发表在学术期刊 Catena 第211卷上(文章编号105967,在线发表日期为2022年1月5日)。

二、 研究背景与目的

本研究属于环境科学、生态学和遥感监测的交叉领域,具体聚焦于利用高光谱技术进行环境污染评估。红树林湿地生态系统具有重要的生态服务功能,如净化水质。然而,随着工业和生活污水排放的增加,红树林沉积物中的重金属富集问题日益严重。重金属可能通过食物链威胁沿海生态系统生物多样性和人类健康。因此,对红树林沉积物中的重金属污染进行有效监测至关重要。

传统的重金属化学分析方法(如电感耦合等离子体质谱法,ICP-MS)虽然精确,但成本高、耗时且难以进行大范围快速监测。可见-近红外反射光谱(Visible and Near-Infrared Reflectance Spectroscopy, VNIRS)技术因其快速、成本低、非破坏性和可提供连续波段光谱信息等优点,成为评估土壤和沉积物性质的有力工具。然而,重金属元素本身在VNIR光谱区间没有明显的直接吸收特征,其光谱估测通常依赖于与光谱活性组分(如铁氧化物、有机碳、粘土矿物等)的关联性。

在污染评估中,相较于直接使用重金属浓度,基于背景值计算的单一污染指数(Single Pollution Index, SPI)综合污染指数(Composite Pollution Index, CPI) 能更有效地定量评估污染水平,并允许在不同区域和生境类型间进行直接比较。然而,此前鲜有研究利用VNIRS技术来量化红树林沉积物的重金属污染指数。

本研究的主要目标是:1)利用XGBoost(极限梯度提升) 方法,基于VNIRS数据建立红树林沉积物中五种重金属(Cr, Ni, Cu, Zn, Pb)的SPI和CPI估算模型;2)探究沉积物理化性质(Fe, 有机碳OC, 粘土含量, 盐度) 对估算精度的影响。该研究旨在为在样地或景观尺度上评估红树林生态系统的环境质量和生态风险提供方法学基础。

三、 详细研究流程与方法

本研究包含一系列严谨的步骤,从样品采集到模型构建与验证,具体流程如下:

1. 研究区域与样品采集: 研究在位于中国广东和广西的五个区域(L1-L5)进行,涵盖了四种主要的红树林植物生境类型:白骨壤(Avicennia marina, AM)、桐花树(Aegiceras corniculatum, AC)、木榄(Bruguiera gymnorrhiza, BG)和秋茄(Kandelia candel, KC)。共随机设置了190个样方(5m×5m),每个样方内采集0-5 cm深度的表层沉积物样品,混合后得到约1公斤的代表性样本。样品经过干燥、粉碎、过筛(0.15 mm)后备用。

2. 化学分析与污染指数计算: * 重金属与理化性质测定:使用ICP-MS测定Cr、Ni、Cu、Zn、Pb和Fe的浓度。使用盐度计测定盐度。采用重铬酸钾硫酸加热法测定有机碳(OC)含量。使用激光粒度分析仪测定粘土含量(粒径<4 μm)。所有分析均采用国家标准土壤样品进行质量控制。 * **污染指数计算**: * **单一污染指数(SPI)**:SPI_i = C_i / S_i,其中C_i为实测浓度,S_i为背景浓度。根据SPI值将污染分为5级:安全(≤0.5)、警戒(0.5-1)、轻度污染(1-2)、中度污染(2-3)、重度污染(>3)。 * 综合污染指数(CPI):采用改进的尼梅罗指数公式计算,综合了五种重金属的SPI值,并同样分为5级。 * 统计分析:由于数据不符合正态分布和方差齐性,采用Kruskal-Wallis非参数检验分析区域和生境类型对六个污染指数的影响。使用Spearman相关系数分析污染指数与理化性质之间、以及重金属之间的相关性。

3. 光谱测量与预处理: 使用ASD FieldSpec 4便携式光谱仪在实验室暗室条件下测量所有190个沉积物样品在350-2500 nm范围内的反射光谱。原始光谱去除噪声较大的两端波段(350-399 nm, 2451-2500 nm)后,采用Savitzky-Golay平滑法(窗口大小10 nm,多项式阶数1)进行平滑。为进一步增强光谱差异,对平滑后的光谱(2051个波段)进行了四种变换:一阶导数(First Derivative, FD)、二阶导数(Second Derivative, SD)、标准正态变量变换(Standard Normal Variate, SNV)和连续统去除(Continuum Removal, CR)。为提高计算效率,将变换后的光谱重采样为5 nm间隔,最终得到410个波段用于建模。

4. 基于XGBoost的污染指数估算模型开发: * XGBoost方法简介:XGBoost是一种高效的梯度提升决策树机器学习算法。本研究利用其进行特征选择(敏感波段筛选)和回归建模。XGBoost通过构建多个决策树来拟合残差,并通过正则化项防止过拟合。其优势在于能自动评估每个特征(此处为光谱波段)的重要性(通过增益、频率、覆盖度等参数),并高效地筛选出与目标变量最相关的特征。 * 最优光谱变换方法选择:首先比较了六个污染指数与四种变换后光谱(FD, SD, SNV, CR)的Spearman相关系数。然后,分别使用四种变换后的全波段光谱(410个波段)构建XGBoost模型,通过比较模型性能(验证集的决定系数R²、均方根误差RMSE、残差预测偏差RPD)来确定最优的光谱预处理方法。结果表明,SNV变换后的光谱与污染指数的相关性最强,且基于SNV光谱的XGBoost模型性能最优,因此后续分析选定SNV光谱。 * 敏感波段选择与模型优化: 1. 数据划分:将190个样本按序号升序排列,奇数号样本作为训练子集,偶数号样本作为独立测试子集。 2. 重要性评估:针对每个污染指数,使用XGBoost的xgb.importance函数计算每个SNV光谱波段的重要性值。将重要性值高于所有波段重要性值标准差的波段定义为“重要波段”。 3. 最优组合确定:采用前向变量选择法,依次将重要性排名前k(k=1,2,3,…)的波段纳入XGBoost模型进行训练和验证。通过比较不同k值下模型的R²、RMSE和RPD,依据奥卡姆剃刀原则(在达到相近精度时选择波段数最少的模型),确定每个污染指数估算的最优敏感波段组合。结果显示,估算不同污染指数所需的敏感波段数量在9到17个之间,远少于全波段数。 4. 模型比较:将使用最优敏感波段组合的XGBoost模型与使用全波段(410个) 的XGBoost模型进行性能比较。

5. 理化性质对模型性能的影响分析: 为了探究区域、生境类型和理化性质对估算精度的影响: * 分类建模:将全数据集按区域(5类)、生境类型(4类)以及各理化性质(Fe, OC, 粘土, 盐度,各按四分位数分为4类)进行分类。对每个类别,使用其对应的最优敏感波段组合分别构建XGBoost模型,比较各类别下模型的R²值,并通过Kruskal-Wallis检验分析这些因素对模型性能影响的显著性。 * 特征融合建模:将筛选出的敏感波段四种理化性质(Fe, OC, 粘土, 盐度) 的数据合并,形成新的特征数据集。用此新数据集为每个污染指数构建新的XGBoost模型,并与仅使用敏感波段的模型进行性能对比,以评估加入理化性质信息是否能提升估算精度。同时,分析新模型中各理化性质特征的重要性排名。

四、 主要研究结果

1. 污染指数统计分析结果: * 在所有样本中,平均污染水平排序为:SPI_Zn (0.61) > SPI_Cu (0.54) > CPI (0.50) > SPI_Pb (0.31) > SPI_Cr (0.22) > SPI_Ni (0.20)。深圳福田保护区(L5)的污染指数平均值最高,其次是党江镇(L2)。秋茄(KC)生境的污染水平最高。 * Kruskal-Wallis检验表明,区域和生境类型对所有六个污染指数均有显著影响。 * 大部分样本的Cr、Ni、Pb处于安全或警戒水平(SPI)。而福田保护区(L5)的大部分样本显示出Cu和Zn的轻至中度污染(1

2. 光谱分析与模型构建结果: * 最优光谱变换:SNV变换在增强光谱特征和提升模型性能方面表现最佳,其与污染指数的平均绝对相关系数最高(0.51),且基于SNV的XGBoost模型在所有污染指数估算上均取得了最高的R²和RPD,以及最低的RMSE。 * 敏感波段:不同污染指数估算的最重要敏感波长不同(如SPI_Cr: 1670 nm, SPI_Ni: 1005 nm, CPI: 1485 nm),这些波段主要分布在450–550 nm、730–885 nm、1450–1610 nm和2195–2230 nm范围内,与O–H、C–O、N–H、C–H等化学键的组合振动区相关,间接反映了与Fe、OC等光谱活性组分的关联。 * 模型性能对比: * 无论是使用全波段还是敏感波段,XGBoost模型对CPI的估算精度最高,其次是SPI_Cu、SPI_Zn、SPI_Pb、SPI_Ni和SPI_Cr。 * 使用敏感波段的XGBoost模型性能显著优于使用全波段的模型。例如,对于CPI的估算,使用敏感波段(9个)的模型R²为0.893,RPD为3.008,而使用全波段(410个)的模型R²为0.827,RPD为2.356。这表明XGBooot有效筛选了信息丰富的波段,减少了冗余信息干扰。 * 根据RPD评价标准,基于敏感波段的模型对CPI、SPI_Cu、SPI_Zn和SPI_Pb的估算性能“极佳”(RPD>2.5),对SPI_Cr和SPI_Ni的估算性能“中等”(1.4

3. 理化性质对估算精度的影响结果: * 分类建模分析:Kruskal-Wallis检验显示,区域、Fe含量和OC含量显著影响六个污染指数的估算模型性能(p<0.05),而生境类型、粘土含量和盐度的影响不显著。当Fe或OC含量处于中等水平(第三四分位数组)时,模型往往能取得较高的R²值。 * 特征融合建模分析:将敏感波段与四种理化性质结合构建新模型,能够进一步提高对SPI_Cr、SPI_Ni和SPI_Cu的估算精度(R²提升0.795–7.282%,RPD提升1.199–8.780%,RMSE降低4.101–26.866%)。然而,对于SPI_Zn、SPI_Pb和CPI,新模型并未表现出显著优势。 * 特征重要性:在新模型中,Fe是贡献最大的理化性质变量,其次是OC,而粘土和盐度的贡献相对较弱。这印证了Fe和OC作为关键辅助变量,通过其光谱活性间接支撑了重金属污染指数的估算。

五、 研究结论与价值

本研究成功开发了一种结合可见-近红外反射光谱(VNIRS)、XGBoost机器学习算法及沉积物理化性质,用于快速、准确评估红树林沉积物重金属污染指数(SPI和CPI)的方法。主要结论如下:

  1. 区域与生境影响:红树林沉积物的重金属污染水平受区域和生境类型显著影响,其中深圳福田保护区和秋茄(KC)生境受Cu和Zn污染的风险较高。
  2. 光谱预处理选择:标准正态变量变换(SNV)是估算重金属污染指数的最佳光谱预处理方法。
  3. XGBoost模型优势:基于XGBoost筛选的敏感波段(9-17个)所构建的模型,其估算精度显著优于使用全光谱波段(410个)的模型,且模型性能排序为:CPI > SPI_Cu > SPI_Zn > SPI_Pb > SPI_Ni > SPI_Cr。
  4. 理化性质的增强作用:融合沉积物的Fe和OC含量信息能够进一步提升对Cr、Ni、Cu污染指数的估算精度,其中Fe的贡献最大。
  5. 方法论价值:该研究证实了VNIRS技术结合机器学习(XGBoost)和关键辅助变量(理化性质)在红树林湿地沉积物重金属污染快速评估中的巨大潜力。所估算的污染指数(SPI/CPI)为跨区域、跨生境比较污染水平提供了标准化指标。

科学价值:本研究深化了对VNIRS间接估算重金属污染机理的理解,明确了Fe和OC等关键理化性质在光谱响应中的桥梁作用,为利用光谱技术监测非光谱活性污染物提供了理论依据和方法框架。

应用价值:该方法为红树林湿地生态系统健康的大范围、快速、低成本监测和生态风险评估提供了有力的技术工具,有助于环境管理者及时掌握污染状况并制定保护、修复和管理策略。

六、 研究亮点

  1. 研究内容新颖:首次系统地将VNIRS技术与XGBoost算法相结合,用于估算红树林沉积物的重金属污染指数(SPI和CPI),而不仅仅是单一重金属浓度,更侧重于生态风险评价。
  2. 方法创新:创新性地将XGBoost算法同时用于光谱敏感波段筛选和回归建模,有效提升了模型精度和解释性。并系统比较了多种光谱预处理方法(FD, SD, SNV, CR)的效果。
  3. 机理探究深入:不仅建立了估算模型,还深入分析了区域、生境类型、关键理化性质(Fe, OC, 粘土, 盐度) 对估算精度的影响,明确了Fe和OC的核心辅助作用,增强了模型的可解释性和物理基础。
  4. 实践指导性强:研究明确了SNV预处理和少量敏感波段(<20个)即可实现高精度估算,这为未来开发便携式或无人机载/星载高光谱传感器的轻量化、实时监测算法提供了重要参考。

七、 其他有价值的发现

研究指出,当前模型对低污染(“安全”级别)样本的估算更为准确,适用于污染的早期检测。同时,作者也指出了本研究的局限性,即样本在较高污染级别(如“中度”、“重度”污染)的代表性有限。未来的研究需要拓宽污染指数的采样范围,并探索将地面VNIRS模型向无人机或卫星高光谱影像尺度转换的可行性,以实现真正的景观或区域尺度监测。这为后续研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com