关于利用WorldView-2与无人机高光谱数据结合机器学习进行高分辨率红树林森林分类的研究报告
本研究报告旨在向国内研究者介绍一篇发表于遥感领域的重要原创性研究论文。该研究由蒋玉峰、张莉、严敏、齐建国、付天猛、范顺祥和陈博伟*(通讯作者)共同完成。研究团队主要来自中国科学院空天信息创新研究院数字地球科学重点实验室、海南省地球观测重点实验室、山东农业大学信息科学与工程学院以及中国农业大学资源与环境学院。该研究成果以《High-Resolution Mangrove Forests Classification with Machine Learning Using WorldView and UAV Hyperspectral Data》为题,于2021年4月15日发表在学术期刊《Remote Sensing》(卷13,期8,文章号1529)上。
一、 学术背景与研究目的
本研究属于生态遥感与生物信息学交叉领域,具体聚焦于利用多源遥感数据和机器学习算法进行红树林物种级别的精细分类。红树林作为重要的滨海湿地生态系统,具有极高的生态、经济和社会价值,例如抵御风暴潮、净化水质、维持生物多样性和碳汇功能。然而,受自然和人类活动影响,全球红树林面积正在急剧减少。因此,对红树林物种进行精确识别和分布制图,对于其保护、恢复和可持续管理至关重要。
传统的红树林监测主要依赖野外调查,但红树林生长于潮间带,地形复杂,给实地工作带来巨大困难和风险。遥感技术为此提供了高效、大范围的解决方案。早期的研究多使用中低分辨率卫星影像(如Landsat, SPOT),但受限于光谱和空间分辨率,物种分类精度有限。随着高空间分辨率卫星(如WorldView-2, Pleiades)和高光谱传感器(如机载AVIRIS,无人机载传感器)的发展,红树林物种分类的精度得以提升。然而,单一数据源往往难以同时满足高空间分辨率和高光谱分辨率的需求。高光谱数据能提供丰富的光谱信息以区分物种,但空间分辨率可能不足或获取成本高;高空间分辨率多光谱数据(如WorldView-2)纹理信息丰富,但光谱信息相对较少。因此,融合不同优势的遥感数据源,成为提高分类精度的潜在途径。
基于此背景,本研究设定了三个明确目标:(1)评估融合无人机高光谱影像与WorldView-2(WV-2)卫星多光谱影像数据,相较于单一数据源,在提升红树林物种分类精度方面的能力;(2)通过特征选择方法,确定对红树林物种分类最有利的光谱波段、植被指数和纹理特征;(3)比较随机森林(Random Forest, RF)和支持向量机(Support Vector Machine, SVM)两种机器学习分类器在该任务上的性能。
二、 详细研究流程
本研究在海南省文昌市清澜港红树林自然保护区内选取了一块3公顷的研究区进行。该区域拥有典型的东方类群红树林,优势物种包括红树(Rhizophora apiculata Blume, RB)、海莲(Bruguiera sexangula, BS)、黄槿(Hibiscus tiliaceus Linn., HL)和杯萼海桑(Sonneratia caseolaris, SC),此外还包括椰子树(Coconut Palm, CP)、不透水面(Impervious Surface, IS)和水体(Water)。研究流程主要包括数据获取与预处理、特征构建与选择、分类模型构建与验证三大环节。
第一环节:数据获取与预处理。 研究使用了两种遥感数据源:1)无人机高光谱数据:于2019年12月30日使用大疆M600 Pro无人机搭载Rikola高光谱相机获取。飞行高度120米,获取了45个波段(500-900 nm,可见光-近红外)的高光谱影像。数据经过辐射定标、暗电流校正、镜头渐晕校正、波段配准、大气校正和光谱降噪等一系列预处理,将原始数字值转换为地表反射率,以提高数据质量。2)WorldView-2卫星多光谱数据:于2020年5月8日获取,包含1个0.5米全色波段和8个2米分辨率的多光谱波段(包括海岸蓝、蓝、绿、黄、红、红边、近红外1、近红外2)。数据进行了辐射校正和大气校正,并利用野外采集的GPS控制点进行了几何精校正,投影至WGS84 UTM 49N坐标系。
野外调查与样本采集是模型训练和验证的基础。研究团队于2019年8月、2019年12月至2020年1月以及2020年10月进行了多次野外调查。使用高精度手持GPS-RTK设备记录了73个红树林样本点的精确位置。基于野外调查绘制的物种分布图,通过目视解译在遥感影像上共选取了1800个样本点,涵盖所有地物类别。为确保模型稳定性,按7:3的比例将样本随机划分为训练集(1241个像素)和验证集(559个像素)。此外,独立采集的73个GPS点也用于后续的精度验证。
第二环节:特征构建与选择。 这是本研究的核心步骤之一,旨在从海量数据中提取并筛选出对分类最有效的特征,避免“维度灾难”。首先,对两种影像数据进行特征提取:a) 光谱特征:直接使用所有原始光谱波段(无人机45个,WV-2卫星8个)。b) 植被指数特征:通过数学变换提取了38种植被指数(详见论文附录表A1),以增强植被信息并放大类间差异。c) 纹理特征:使用灰度共生矩阵(GLCM)为每个波段(及PCA前三个主成分)计算了8种纹理度量(均值、方差、同质性、角二阶矩、对比度、相异性、熵、相关性),并设置了3x3, 5x5, 7x7三种移动窗口。最终,从无人机高光谱影像中提取了799个特征,从WV-2影像中提取了153个特征,共计952个特征变量。
随后,采用递归特征消除-随机森林(RFE-RF) 方法进行特征优选。这是一个结合了包装法和嵌入法的特征选择策略。过程为:首先剔除相关性高于85%的特征以初步降维;然后以全部剩余特征初始化,使用RF模型进行重要性排序,每次迭代剔除一个最不重要的特征,直到找到使模型性能最优的特征子集。通过多次迭代,最终确定当特征数量为5个时,分类总体精度达到95.47%,Kappa系数为0.94,且能有效避免过拟合。这五个关键特征分别是:WV-2影像第三主成分的7x7窗口均值纹理(wv_pca3_mean_7)、无人机高光谱的改良土壤调节植被指数(h_MSAVI)、WV-2影像第二主成分的7x7窗口对比度纹理(wv_pca2_contrast_7)、WV-2影像第6波段(红边波段)的5x5窗口熵纹理(wv_b6_entropy_5)以及无人机高光谱的优化土壤调节植被指数2(h_OSAVI2)。
第三环节:分类、验证与比较分析。 研究采用像素级分类方法。基于RFE-RF筛选出的5个最优特征,分别构建随机森林(RF) 和支持向量机(SVM) 分类模型。RF模型的参数(ntree=500, mtry=1)和SVM模型的参数(核函数为径向基函数RBF,cost=64, gamma=1)均通过网格搜索和10折交叉验证进行优化。使用训练集样本训练模型,然后分别用预留的验证集样本(559个像素)和独立的GPS点样本(73个点)对分类结果进行精度评估。评估指标包括总体精度(Overall Accuracy, OA)、Kappa系数和混淆矩阵。
为了达成研究目标,研究设计了对比实验:分别使用仅无人机高光谱数据特征、仅WV-2卫星数据特征以及两者融合后的数据特征,输入到RF和SVM分类器中,比较它们的分类性能。
三、 主要研究结果
1. 特征选择结果分析: RFE-RF方法筛选出的前10个重要特征中,纹理特征占据主导地位(7个),其次是植被指数特征(3个)。值得注意的是,来自无人机高光谱数据的重要特征全部为植被指数(如MSAVI, OSAVI2),而来自WV-2数据的重要特征则以纹理特征和基于PCA的纹理特征为主。这表明,在红树林物种分类中,无人机高光谱数据的优势在于其丰富的光谱信息衍生的植被指数,而WV-2高空间分辨率数据的优势在于其提供的纹理信息。两者具有互补性。分析还发现,红、近红外、红边和绿波段是构建这些重要特征最常用的基础波段,窄波段通道比宽波段通道更有用。
2. 分类精度结果: * 融合数据优势显著:无论使用RF还是SVM分类器,融合数据(UAV+WV-2)的分类精度均高于任一单一数据源。这验证了研究假设,即数据融合能综合利用高光谱信息和高空间纹理信息,提升分类能力。 * RF算法优于SVM算法:在融合数据上,RF分类器的总体精度(95.89%, Kappa=0.95)略高于SVM分类器(95.35%, Kappa=0.94)。更重要的是,当使用独立的GPS点进行验证时,RF的精度(91.78%)虽比样本点验证有所下降,但下降幅度(4.11%)远小于SVM(从95.35%降至84.93%,下降10.42%)。这表明RF模型具有更好的稳健性和泛化能力,而SVM模型在训练过程中可能存在一定的过拟合现象。 * 单一数据源对比:仅使用无人机高光谱数据时,RF取得了94.21%的精度;仅使用WV-2数据时,精度仅为73.59%。这凸显了高光谱数据在物种精细分类中的巨大潜力,其丰富的光谱信息对于区分光谱特征相似的红树林物种至关重要。 * 各类别可分性:杯萼海桑(SC)的分类精度最高,可分性最好,其空间分布(主要生长在红树林与海水的交界处)也与实际情况吻合。红树(RB)、海莲(BS)和黄槿(HL)的分类精度相对较低。原因包括:a) 鱼藤(Derris trifoliata)缠绕在这三种树的树干和树冠上,导致样本信息不纯,干扰了分类模型;b) RB和BS的冠层叶片形状相似,削弱了纹理特征的有效性,在混合边界处易出现误分。
3. 分类结果图与误差分析: 基于融合数据和RF算法生成的清澜港研究区红树林物种分类图,清晰地展示了七类地物的空间分布格局,与实地调查情况基本一致。与SVM的结果图相比,RF的结果图中误分类区域更少(例如,西部植被区错误出现的椰子树更少,RB和BS的混淆更轻)。研究还分析了误差来源,主要包括:无人机成像时的阴影影响、不同数据源间因获取时间和分辨率差异导致的空间错位、野外GPS定点时视野受限可能导致的物种误判,以及红树林物种混生、高树下长矮树造成的“混合像元”效应。
四、 研究结论与价值
本研究得出结论:融合无人机高光谱影像和WorldView-2多光谱影像,并结合递归特征消除-随机森林(RFE-RF)进行特征选择,再利用随机森林(RF)算法进行分类,能够高效、高精度地实现红树林物种的精细分类。 该方法总体精度达95.89%,为红树林资源调查与监测提供了一种强有力的技术方案。
其科学价值在于:1)验证了多源光学遥感数据融合在红树林物种分类中的有效性,明确了无人机高光谱的植被指数特征与高分辨率卫星的纹理特征的互补作用。2)系统评估并比较了RF与SVM算法在该任务上的表现,证实了RF在稳定性、抗过拟合能力和多类别区分平衡性上的优势。3)通过RFE-RF方法,识别出对红树林物种分类最关键的特征组合,为后续研究提供了重要的特征工程参考。
其应用价值在于:所提出的技术流程(数据融合->特征优选->RF分类)具有较高的可操作性和推广潜力,可用于大范围、高精度的红树林物种分布制图、生物量估算、以及为红树林的人工育种栽培和生态保护修复工程提供精准的本底数据和决策支持。
五、 研究亮点
六、 其他有价值的内容
研究对未来方向进行了展望:建议未来研究可考虑积累更多样本数据,建立红树林样本数据库;探索将深度学习算法应用于红树林精细分类;并开展红树林物种的时空变化分析,为红树林培育与保护提供更深入的科学建议。此外,研究也指出,由于使用了两种不同空间分辨率的影像,本研究未能采用面向对象的分类方法,但未来针对无人机高光谱影像,可深入探索面向对象方法的潜力。