冬小麦叶片水分含量高光谱监测模型优化研究:基于特征替换与融合的策略
本文介绍了由Zhigang Wang、Sha Yang、Qing Liang、Xujing Yang、Meichen Feng、Xiaobin Yan、Xinkai Sun、Mingxing Qin、Chao Wang、Yu Zhao、Wude Yang、Lujie Xiao、Meijun Zhang、Xiaoyan Song以及Yongkai Xie等研究人员共同完成的一项研究成果。该研究主要依托山西农业大学农学院/山西省可持续旱地农业重点实验室、山西农业大学智慧农业学院、山西农业大学棉花研究所(山西省农业科学院)、山西农业大学资源环境学院以及太原师范学院地理科学学院等机构。研究论文《Feature replacement and fusion enhance the accuracy of canopy spectral monitoring models for winter wheat leaf water content》已于2026年发表于国际期刊*International Journal of Applied Earth Observation and Geoinformation*(第146卷,文章编号105110)。
一、 研究学术背景
本研究属于农业遥感监测与精准农业领域,具体聚焦于利用高光谱遥感技术对冬小麦关键生理指标——叶片水分含量(Leaf Water Content, LWC)进行无损、实时监测。
冬小麦是全球广泛种植的重要粮食作物,其生长状况对粮食安全至关重要。近年来,气候变化导致干旱频发且持续时间延长,严重威胁冬小麦的生长发育。LWC是反映土壤水分和作物生长状况的关键指标,也是评估作物生长条件的重要依据。因此,田间实时、准确地获取冬小麦LWC信息对于优化生产管理、应对干旱胁迫具有重要实践意义。
高光谱遥感以其信息量大、光谱范围广、分辨率高和光谱连续性强的优势,能够捕捉作物的细微变化,为作物生长研究提供更精确的数据。然而,冠层光谱数据的获取受到多种因素的干扰,如背景(土壤、枯叶)、水汽、仪器噪声以及仪器本身的基线漂移等。为减轻光谱噪声和伪影,研究人员通常采用预处理技术来提高信噪比、减少散射效应。然而,不同的预处理方法对光谱特征的影响各异,不当的预处理方法或序列组合可能削弱模型的性能。
此外,直接使用全光谱作为输入变量会引入大量噪声和冗余信息,增加数据处理负担。因此,光谱波段选择和特征提取成为关键步骤。传统研究多依赖于单一特征选择方法或多个预处理技术的简单组合,在多表征、多阶段特征构建与优化方面的研究存在空白。同时,不同波段对不同干扰因素的敏感性不同,同一预处理方法可能导致某些低干扰波段的信息被误判为冗余而丢弃,而未能完全消除干扰的预处理又可能因包含了冗余信息而忽略了敏感波段。
基于此,本研究旨在系统性地解决上述问题。其核心科学目标是:系统探究在不同预处理算子下,LWC对光谱波长的敏感性变化;识别在不同预处理方法下与冬小麦LWC高度相关的光谱波段;并创新性地提出并评估“波段替换”与“特征融合”两种策略,以优化特征组合,从而提升LWC监测模型的精度与鲁棒性。
二、 详细工作流程
本研究的工作流程系统而严谨,主要包括以下几个关键步骤:
实验设计与数据采集: 为确保数据质量,研究在2019-2021年和2022-2024年两个独立生长季,于山西农业大学作物站旱棚试验基地进行了田间试验。试验共设置了24个小区,采用随机区组设计。第一个试验(2019-2021)设置了基于田间持水量的不同梯度干旱胁迫处理(重度、中度、轻度)及全生育期无胁迫对照,涉及两个冬小麦品种(长6878和长4738)。第二个试验(2022-2024)则基于作物需水量在拔节、开花和灌浆期进行不同灌溉处理,使用“晋太182”品种。两个试验的种植方式、施肥管理保持一致,总共收集了208个有效样本。数据采集在晴朗无风天气的10:00至14:00进行。使用ASD FieldSpec 3.0手持式高光谱辐射计测量冬小麦冠层光谱,传感器探头垂直向下,距冠层约1米,每个样本采集3个点,每点5条光谱曲线。同步,在每个样点采集叶片样品,通过鲜重和烘干后干重计算LWC。
光谱数据预处理: 在剔除异常值和计算平均值后,获得208个有效光谱样本。由于ASD设备在1350–1400 nm、1800–1950 nm和2450–2500 nm区间存在强大气水汽吸收窗和低信噪比问题,在分析前首先移除了这些异常波段。研究采用了六种预处理方法对原始光谱(R)进行处理,以比较其效果:Savitzky-Golay平滑(SG)、多元散射校正(MSC)、标准正态变量变换(SNV)、一阶导数(FD)、二阶导数(SD)以及倒数对数变换(log(1/R))。这些方法分别用于减少高频噪声、校正散射效应、增强局部光谱变化特征及稳定方差。
特征波段选择: 为消除冗余、降低数据维度,研究应用了四种特征选择方法从不同预处理后的光谱中识别与LWC相关的特征波段:
研究强调,选择特征选择而非特征提取(如PCA)方法,是为了保留光谱特征的物理可解释性,以支持后续在单个波段级别进行的替换与融合操作。
特征优化策略(核心创新点): 本研究提出了两种新颖的特征优化策略:
值得注意的是,所有用于替换和融合去重的相关系数计算都严格在训练集上进行,避免了数据泄露。
模型构建与验证: 研究采用了多种机器学习回归方法来评估不同特征集(原始特征、替换特征、融合特征)的LWC监测性能,包括:多元线性回归(MLR)、偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、高斯过程回归(GPR)、极限梯度提升(XGBoost)和反向传播神经网络(BPNN)。数据集按2:1的比例随机划分为训练集(139个样本)和测试集(69个样本)。模型训练采用十折交叉验证,且所有特征选择、替换和融合规则均在训练集上确定并固定,然后应用于独立的测试集进行评估。模型性能通过决定系数(R²)、均方根误差(RMSE)和赤池信息准则(AIC)进行综合评价。
三、 主要研究结果
预处理对光谱特征与相关性的影响: 分析表明,除SG平滑外,FD、SD、MSC、SNV和log(1/R)等预处理方法均能在不同程度上放大特定波段的光谱特征,有效增强了冠层光谱与LWC的相关性。例如,FD和SD变换显著改变了光谱轮廓,增强了细微的光谱特征,其与LWC的最高相关系数分别出现在494 nm(-0.791)和680 nm(-0.774)。MSC和SNV则在350-720 nm范围内呈现出与原始光谱相反的相关性趋势。这些结果表明,不同预处理方法通过不同的机制(如去散射、求导放大变化率)突出了光谱中与LWC相关的不同信息成分。
特征选择与波段替换结果: 四种特征选择方法提取的特征波段数量依次为:SPA < PLSR-VIP < CARS < IVSO。无论采用何种预处理方法,与LWC高度相关的特征波段主要集中分布在750 nm、1500 nm、1900 nm和2400 nm附近,这与植被水分吸收的已知物理机理相符。对特征选择一致性(Jaccard相似度)的分析显示,不同预处理策略对选出的特征子集有显著影响。例如,原始光谱(R)和SG平滑(SG)的选择结果高度相似,而log(1/R)变换的选择结果则与其他所有方法差异极大,甚至在某些方法下重叠为零。这证实了预处理方法会从根本上改变光谱信息的结构,进而影响特征选择的结果。 波段替换操作主要发生在上述关键波长区域(如750 nm、1400 nm、1500 nm、1900 nm、2400 nm附近),以及IVSO方法大量选中的350-680 nm和1100 nm附近区域。这表明,在这些波长上,不同的预处理方法确实提供了对LWC信息含量不同的“表征”。
不同特征集的模型性能比较:
模型间的比较: 在所使用的多种机器学习模型中,BPNN整体表现最佳,其次是RF。MLR和PLSR这类线性模型表现相似且相对较差。XGBoost和GPR在训练集上表现优异,但在测试集上存在较明显的性能差距,表明可能存在一定程度的过拟合。BPNN强大的非线性映射能力使其能够更好地捕捉特征与LWC之间的复杂关系。
四、 结论与研究价值
本研究得出以下核心结论: (1)光谱预处理方法(特别是FD、SNV、log(1/R))能有效增强特定波长范围内光谱与LWC的相关性,且不同预处理方法对特征选择结果有显著影响,表现出明显的组间差异。 (2)在未进行特征替换与融合时,FD预处理、IVSO特征选择与BPNN建模的组合(FD + IVSO + BPNN)能获得最优的LWC监测性能。 (3)提出的特征替换与融合策略能进一步显著提升模型性能。从原始特征到替换特征,再到融合特征,模型的监测精度和鲁棒性逐步提高。其中,基于IVSO的融合特征(IVSOfu)结合BPNN模型,实现了最高精度和最可靠的LWC监测。
该研究的科学价值在于:系统阐释了不同预处理算子如何通过改变光谱表征来影响LWC相关信息的提取,并创新性地提出了一个“多预处理表征替换与约束性融合”的通用框架。该框架通过利用不同预处理方法的互补性,有效解决了单一预处理可能导致信息丢失或冗余信息干扰的问题,从而优化了用于模型输入的光谱特征集。
其应用价值体现在:为利用高光谱遥感技术精准、稳健地监测冬小麦叶片水分含量提供了系统的技术方案和理论支持。该方法论不仅可用于冬小麦,其核心思想(针对不同波段的干扰特性优选预处理表征,并通过融合互补信息提升模型性能)也有潜力迁移到其他作物或植被类型的关键参数反演中,支持精准农业的实践。
五、 研究亮点
六、 其他有价值的讨论
研究在讨论部分还指出,虽然该方法在本研究的冬小麦地面高光谱数据上验证有效,但其可移植性和普适性需要在更独立、异质的数据集(如不同年份、不同试验地点、其他作物或森林植被)上进行进一步验证。此外,研究也展望了未来工作方向,包括:将该框架应用于机载/星载遥感数据时需考虑传感器差异、大气校正、混合像元等问题;采用更稳健的评估策略(如重复随机划分);与已建立的植被指数(如NDWI)进行定量对比以加强可解释性;以及针对融合特征集可能带来的高维度问题,探索融合后的多变量修剪和模型复杂度控制方法。这些讨论为后续研究提供了清晰的路线图。