本研究的主要作者为昆明理工大学国土资源工程学院的王东(Dong Wang)、唐伯惠(Bo-Hui Tang,通讯作者)、付志涛(Zhitao Fu)、黄亮(Liang Huang)、李孟华(Menghua Li)、陈国坤(Guokun Chen)以及昆明理工大学环境科学与工程学院的潘学军(Xuejun Pan)。合作机构还包括中国科学院地理科学与资源研究所。该研究于2022年10月4日发表在学术期刊 Remote Sensing 上,论文标题为《Estimation of Chlorophyll-a Concentration with Remotely Sensed Data for the Nine Plateau Lakes in Yunnan Province》。
本研究的学术领域属于环境遥感,特别是水环境遥感监测。研究的背景源于近年来高原湖泊水质问题备受政府和公众关注。叶绿素a是反映水体富营养化状况的关键指标,常用于监测蓝藻水华的发生。传统的叶绿素a浓度监测方法(如现场采样和实验室分析)通常存在操作不便、过程复杂、耗时费力等局限性。遥感技术提供了一种大范围、快速、周期性的监测手段。通过深入研究水体光谱特征和改进反演模型,遥感图像能够更准确地模拟水体中叶绿素a含量,结合水文参数、地理位置、自然资源等信息,可以有效发现水污染和水质变化趋势。然而,高原湖泊水体光学性质复杂,受人类活动影响显著,区域特征明显,水体组分极其复杂,导致叶绿素a浓度反演难度大,模型普适性差。此外,高原湖泊分布不均,对卫星数据的空间分辨率要求高,且可用数据量相对较少。尽管已有基于“反射峰”、“波段算法”、“指数算法”和“机器学习”等一系列叶绿素a浓度计算方法,但主要集中于叶绿素a荧光峰以及近红外和红波段的敏感波段,在高原湖泊中难以同时实现高精度和强普适性。同时,已有研究表明,在一定温度范围内,湖泊表面温度有助于藻类生长,叶绿素a浓度分布与湖泊表面温度常呈正相关关系,但这种关系在众多湖泊中尚未得到充分验证。
基于此,本研究旨在解决高原湖泊叶绿素a浓度遥感反演的难题,并验证湖泊表面温度与叶绿素a浓度之间的相关性。具体研究目标包括:1)利用哨兵2号(Sentinel-2 MSI)遥感影像和地面实测数据,基于随机森林(Random Forest, RF)算法的特征重要性(feature importance),筛选出适用于云南九大高原湖泊的叶绿素a浓度最优反演模型;2)评估所选模型的精度;3)利用 Landsat-8 TIRS 数据,基于单通道算法反演湖泊表面温度;4)分析并验证九大高原湖泊表面温度与叶绿素a浓度分布之间的空间相关性。
本研究的详细工作流程包含多个相互衔接的环节。首先,在数据准备阶段,研究确定了云南-贵州高原区的九个主要湖泊作为研究区,包括滇池、洱海、抚仙湖、程海、泸沽湖、杞麓湖、星云湖、阳宗海和异龙湖。研究使用了多种数据源:用于叶绿素a浓度反演的哨兵2号 MSI 地表反射率产品(Level-2A),数据获取时间为2020年8月,通过 Google Earth Engine(GEE)平台获取;用于湖泊表面温度反演的 Landsat-8 TIRS 第10波段数据,成像时间为2020年8月9日,云量控制在10%以下;以及关键的地面实测数据——2020年九大高原湖泊的现场测量叶绿素a浓度数据,该数据由云南省生态环境厅和中国科学院南京地理与湖泊研究所发布,采用乙醇分光光度法在实验室测定。研究对实测数据进行了预处理,计算了平均值和标准差,并剔除了与均值相差超过三个标准差的异常值。
在研究方法上,第一步是水体提取。考虑到高原湖泊周边的建筑和土壤可能对传统归一化水体指数(NDWI)造成干扰,本研究采用了改进的归一化差异水体指数(Modified Normalized Difference Water Index, MNDWI)从哨兵2号影像中提取精确的湖泊水域边界。该指数用短波红外1波段替代了近红外波段,能有效抑制建筑物和土壤信息,大大减少了背景噪声,提高了高原湖泊水域提取的效率和精度。计算公式为 MNDWI = (ρ_green - ρ_swir1) / (ρ_green + ρ_swir1),其中值大于0的区域被判定为水体。
第二步是构建叶绿素a浓度反演模型并进行特征选择。根据高原湖泊中叶绿素a的光学特性(如在400-500nm蓝光强吸收、500-620nm存在反射峰、620-670nm红波段强吸收形成吸收谷、670-730nm存在“荧光峰”等),研究参考近年文献,基于经验模型和半分析模型,系统构建了四类共计42个光谱指数作为候选模型:单波段指数、波段比值指数、归一化差异指数和三波段指数。为了从这些候选模型中筛选出与叶绿素a浓度最相关的特征,本研究引入了一种机器学习方法——随机森林算法。该算法的优势在于其抗噪声能力强,并能通过基尼系数计算变量的重要性。研究在GEE平台上构建了RF模型,将42个光谱指数作为输入特征,将地面实测叶绿素a浓度作为标签,计算每个光谱指数的特征重要性。特征重要性越高,表明该指数与叶绿素a浓度的相关性越强。这一步骤是本研究的核心创新点之一,它提供了一种数据驱动的方法来客观筛选最优反演模型,而非依赖主观经验选择。
第三步是叶绿素a浓度反演及精度评价。根据RF特征重要性排序结果,研究选取了重要性最高的四个光谱指数进行后续反演,分别是:第十五归一化差异叶绿素a指数(ndci15,即(B5-B4)/(B5+B4))、第十五波段比值指数(divd15,即B5/B4)、第一三波段指数(tbi1,即(1/B4 - 1/B5)*B6)和第三三波段指数(tbi3,即(1/B4 - 1/B5)*B8)。利用哨兵2号地表反射率数据和地面实测数据,通过线性拟合为每个湖泊建立了基于这四个指数的叶绿素a浓度反演方程。为了评估反演精度,研究使用了同一时期生态环境部监测站的数据作为验证集。精度评价指标包括均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)。
第四步是湖泊表面温度反演。研究采用基于辐射传输方程的单通道算法,利用 Landsat-8 TIRS 第10波段数据反演九大高原湖泊的表面温度。基本流程包括:对TIRS数据进行辐射定标获得辐射亮度值;基于归一化差异植被指数阈值法对地表进行分类,并计算地表比辐射率(水体比辐射率设为0.995);通过NASA网站的大气校正参数计算器(ACPC)输入成像时间、地理位置等参数,模拟大气辐射传输过程,获取大气向上辐射亮度、大气向下辐射亮度和大气透过率等关键参数;最后,将上述参数代入辐射传输方程进行求解,得到地表真实温度。该方法能较好地消除大气影响,获得相对准确的湖泊表面温度。
第五步是空间相关性分析。在分别获得九大高原湖泊的叶绿素a浓度分布图和表面温度分布图后,研究提取了各湖泊像元级的温度及其对应的叶绿素a浓度值。通过散点图分析两者之间的整体相关性。此外,还进行了空间叠加分析,将温度和叶绿素a浓度作为影响因子(权重分别为0.4和0.6),生成综合分布图,以直观展示两者共同作用下的热点区域。
本研究的主要结果丰富且具有明确的逻辑关系。在水体提取方面,MNDWI指数成功提取了九个湖泊清晰的水体边界,为后续的浓度反演限定了准确的研究区域。在模型筛选方面,RF特征重要性计算结果显示,在42个光谱指数中,ndci15((B5-B4)/(B5+B4))的特征重要性最高(56.2430),表明该指数与高原湖泊叶绿素a浓度的相关性最强。其他三个入选指数(tbi3, tbi1, divd15)的特征重要性也较高。这一结果直接指导了后续最优反演模型的选择。
在叶绿素a浓度反演精度方面,四个模型在所有湖泊上均表现出较好的线性拟合效果,决定系数R²大多在0.5以上,其中阳宗海使用ndci15模型的R²最高(0.8155)。通过对验证站点数据的精度评估发现,ndci15模型的综合表现最优,其RMSE为0.0249 mg/L,MAE为0.0142 mg/L,MAPE为26.30%。与其他三个模型相比,ndci15模型具有更高的精度优势。分析其原因,ndci15通过对B5(植被红边1)和B4(红)波段进行非线性拉伸,进一步增强了两个波段反射率的对比度,对高原湖泊间的光谱特性差异具有良好的稳定性和鲁棒性。
基于最优模型ndci15,研究获得了2020年6月下旬九大高原湖泊的叶绿素a浓度空间分布图。结果显示:洱海、抚仙湖、泸沽湖和阳宗海的叶绿素a浓度较低且分布均匀,整个湖泊的浓度普遍低于0.02 mg/L,表明水质状况良好。程海湖中部和北部浓度较低,但南部浓度较高。滇池湖东北部叶绿素a浓度较高,而南部和西部浓度较低,平均浓度为0.08 mg/L。星云湖北部、杞麓湖以及异龙湖东南部的叶绿素a浓度较高,超过0.1 mg/L。这些空间分布结果与官方公布的部分湖泊富营养化状态(如杞麓湖、异龙湖为重度富营养)具有一致性,证明了反演结果的可靠性。
在湖泊表面温度反演方面,研究成功获取了九大高原湖泊在夏季(2020年8月9日)的表面温度分布图。结果显示,夏季湖泊表面温度均在20摄氏度以上,其中异龙湖平均温度最高(31.86°C),泸沽湖最低(22.41°C)。从空间分布看,近岸区域温度明显升高,而湖心区域温度较低,这体现了湖泊的“冷湖效应”,即大面积水体热容量大,对周边气温有调节作用。温度反演结果符合物理规律和季节性特征。
最关键的发现来自于空间相关性分析。结果显示,当叶绿素a浓度非常低(小于0.05 mg/L)时,其与湖泊表面温度无明显相关性。然而,当叶绿素a浓度大于0.05 mg/L,且湖泊表面温度在28°C至34°C之间时,两者呈现出明显的正线性相关关系,即随着温度升高,叶绿素a浓度也倾向于增加。空间叠加分析图进一步显示,在温度为20-35°C的湖区,叶绿素a浓度增幅最高的区域用暗黄色标示,为管理者在湖面温度升高时提供了重点监测区域。这一结果验证了研究最初的假设,即在一定条件下,湖泊表面温度对藻类生长(表现为叶绿素a浓度升高)有促进作用。
本研究的结论明确且具有多重价值。主要结论如下:首先,通过RF特征重要性筛选出的ndci15指数是反演云南高原湖泊叶绿素a浓度的最优模型,其精度满足遥感监测需求。其次,九大高原湖泊的叶绿素a浓度空间差异显著,滇池、星云湖、杞麓湖和异龙湖是富营养化关注的重点湖区。第三,当叶绿素a浓度大于0.05 mg/L且湖泊表面温度在28-34°C范围内时,两者存在正线性相关,相关性从湖心向岸边逐渐增强。
本研究的科学价值在于:1)提出了一种结合随机森林特征重要性筛选与传统线性拟合的高原湖泊叶绿素a浓度遥感反演方法框架,提高了模型选择的客观性和反演精度。2)首次利用多源遥感数据(Sentinel-2和 Landsat-8)同步反演并系统分析了云南九大高原湖泊的叶绿素a浓度与表面温度的时空分布特征及两者之间的相关性,为理解高原湖泊水环境因子的耦合机制提供了新的数据和见解。应用价值在于:该研究成果可为高原湖泊富营养化的遥感监测提供技术支持,所确定的重点监测区域和温度-叶绿素a关联性认识,有助于湖泊管理部门进行更科学、有效的湖泊管理和水华预警。
本研究的亮点突出:第一,方法新颖。创新性地将机器学习中的随机森林算法用于遥感指数特征重要性排序,从而数据驱动地筛选出最优叶绿素a反演光谱指数(ndci15),该方法对复杂光学性质水体具有较好的适应性和可推广性。第二,研究系统性强。完整涵盖了从数据预处理、水体提取、模型构建与筛选、浓度与温度反演、精度验证到相关性分析的整个遥感应用链条,逻辑严谨。第三,多源数据融合。综合使用了高空间分辨率的 Sentinel-2 MSI 数据(用于叶绿素a)、热红外 Landsat-8 TIRS 数据(用于温度)以及宝贵的地面实测数据,实现了优势互补。第四,结论具有实践指导意义。不仅给出了湖泊叶绿素a的分布状况,还明确了温度促进叶绿素a增长的具体条件(浓度>0.05 mg/L,温度28-34°C),为动态监测和预警提供了关键阈值参考。
此外,研究也在讨论部分指出了未来可改进的方向,如未来可结合发射的高光谱卫星数据提高监测能力;利用 Landsat-9 的双热红外通道发展更优的温度反演算法;获取更长时间序列的数据以研究不同季节的温度模式及其与叶绿素a的相关性;以及发展更精确的水体大气校正方法等。这些思考为该领域的后续研究提供了有价值的思路。