利用切比雪夫定理进行数据库构建的滑坡敏感性制图研究：以土耳其耶尼切地区为例

分享自：
利用切比雪夫定理进行数据库构建的滑坡敏感性制图研究：以土耳其耶尼切地区为例

建筑与土木工程
地质学
期刊:Journal of Mountain ScienceDOI:10.1007/s11629-016-3880-z
【点击此处】阅读全文、收藏及针对性提问
地质灾害风险评估新方法研究：基于切比雪夫定理的滑坡易发性数据库构建与应用作者及发表信息 本研究由土耳其哈杰特佩大学（Hacettepe University）地质工程系的Murat Ercanoğlu、Gülseren Dağdelenler、Erman Özsayın、Nurten Alkevli、Harun Sönmez、Tolga Özyurt、Burcu Kahraman、N. Nur Uçar、Sinem Çetinkaya等人，以及加齐大学（Gazi University）土木工程系的İbrahim Uçar共同完成。研究成果于2016年发表在国际期刊 *Journal of Mountain Science*，第13卷第11期，文章标题为“Application of Chebyshev theorem to data preparation in landslide susceptibility mapping studies: an example from Yenice (Karabük, Turkey)”。
学术背景与研究目标 滑坡是破坏性最强的自然灾害之一，在全球范围内造成了巨大的人员伤亡、经济损失和环境影响。滑坡易发性制图（Landslide Susceptibility Mapping, LSM）是滑坡风险评估和土地利用规划的基础和关键步骤。尽管存在多种定量方法（如逻辑回归、人工神经网络、支持向量机等）用于滑坡易发性评估，但评估结果的可靠性和质量在很大程度上依赖于所使用的滑坡数据库的构建质量。滑坡数据库的构建，即如何从滑坡清单中选取代表“滑坡”和“非滑坡”的样本点，是LSM研究中最具挑战性的核心环节之一。传统的采样策略（如使用整个滑坡体、滑坡破裂区、种子单元法等）虽被广泛应用，但其往往具有主观性，且样本点的数量和空间分布对模型性能有显著影响。如何构建一个更具代表性、更客观的滑坡数据库，以减少数据选择中的主观偏差，是提升易发性制图质量的关键科学问题。
基于此背景，本研究旨在提出并验证一种新颖、客观的滑坡数据库构建方法。该方法的核心是应用切比雪夫定理（Chebyshev Theorem）这一统计学工具来提取滑坡和非滑坡样本，并利用人工神经网络（Artificial Neural Network, ANN）模型，评估不同数据库构建策略对滑坡易发性图性能的影响。研究选择土耳其黑海地区西部的Yenice（卡拉比克省）作为案例研究区，以验证所提出方法的有效性。
详细研究流程 本研究的工作流程系统、严谨，共包含五个主要阶段：
第一阶段：研究区数据准备与滑坡清单编制 研究区面积约298.5平方公里，被划分为两个子流域（盆地1和盆地2），分别用于模型的训练（training）和验证（testing）。盆地1面积218.31平方公里，盆地2面积80.25平方公里。 1. 滑坡编录：通过遥感解译（航片、正射影像）和详细的野外调查，共识别并绘制了75处旋转型土质滑坡（rotational earth slides）。其中，56处位于盆地1（训练区），19处位于盆地2（验证区）。 2. 参数化因子制备：选择了9个与滑坡发生相关的地形和地貌环境因子，并在ArcGIS平台上将其制备为20米×20米分辨率的栅格图。这些因子包括： * 地形高程（DEM） * 坡度（Slope） * 坡向（Aspect） * 剖面曲率（Profile Curvature） * 平面曲率（Planar Curvature） * 地形湿度指数（Topographical Wetness Index, TWI） * 河流功率指数（Stream Power Index, SPI） * 归一化植被指数（NDVI） * 距水系距离（Distance to Drainage） 这些因子图的统计特征（最小值、最大值、均值、标准差）均在滑坡区和非滑坡区分别进行计算，作为后续分析的基础（见表1）。需要特别指出的是，由于研究区内所有滑坡均发生在同一岩性单元（上白垩统Ulus组）内，因此本研究未将岩性作为评估因子，降水也视为全区均匀分布。
第二阶段：基于切比雪夫定理的数据库构建（策略一，STR1） 这是本研究的创新核心。研究团队将切比雪夫定理应用于训练区（盆地1）的滑坡和非滑坡数据分布，以客观地提取代表性样本。切比雪夫定理指出，对于任何分布形态的数据集，其均值±k倍标准差（k > 1）范围内所包含的数据比例至少为 (1 - 1/k²)。该定理不要求数据服从正态分布，这非常适合地质环境数据通常具有的复杂分布特征。 1. 数据库构建流程： a. 计算统计量：首先，在盆地1中，分别计算9个环境因子在“滑坡多边形内”和“非滑坡区”两个区域内的均值和标准差。 b. 应用定理确定范围：选择不同的k值（从1.25到3.0，间隔0.25，共8个k值）。对于每个因子和每个k值，分别计算滑坡区和非滑坡区的数据范围（均值±k×标准差）。 c. 栅格重分类与叠加：将每个因子图依据上述计算出的滑坡区范围和非滑坡区范围进行重分类，生成代表“符合滑坡特征”和“符合非滑坡特征”的二值图。然后，将9个因子的二值图进行代数乘法运算。最终得到的栅格图中，值为1的像素点表示该点在所有9个因子上的取值均同时落入了其各自“滑坡区”的（均值±k×标准差）范围内；类似地，可以生成非滑坡候选点。 d. 生成采样点集：将上述最终栅格图转换为点要素，即为通过STR1策略提取出的滑坡候选点位置（以及对应的非滑坡候选点）。图6展示了不同k值下生成的候选点空间分布。这样就得到了8套不同的滑坡/非滑坡数据库（对应于8个k值），每套数据库的样本量不同，代表了不同比例（36% 到 88.8%，见表2）的总体数据特征。
第三阶段：传统种子单元法数据库构建（策略二，STR2） 为了与提出的新方法进行比较，研究同时采用了文献中常见的种子单元法（Seed Cell Approach）。该方法由Suzen和Doyuran（2004）提出，即在每个滑坡体的边界外围创建一个缓冲区（本研究采用4个像素，即80米的缓冲区），缓冲区内的像素被选为滑坡样本点。非滑坡样本点则从滑坡区之外的区域随机选取与滑坡样本等量的点。最终，STR2数据库共包含4506个点（滑坡与非滑坡各2253个）。其基础统计特征见表3。
第四阶段：人工神经网络建模与易发性制图 研究采用IDRISI Selva软件中的多层感知器（Multi-Layer Perceptron, MLP）模块，这是一种使用反向传播（Back Propagation）学习算法的人工神经网络。 1. 模型结构：输入层为9个神经元（对应9个环境因子），输出层为1个神经元（表示滑坡易发性），隐含层神经元数设为3（9/3/1结构）。其他关键参数设置为：动态学习率（避免过拟合/欠拟合）、动量参数0.5、最大迭代次数30000、均方根误差（RMS）停止阈值0.001。 2. 模型训练与制图：使用盆地1（训练区）的数据，将前述构建的9套数据库（8套来自STR1，1套来自STR2）分别作为ANN模型的输入进行训练。每次训练均使用相同的ANN结构和参数设置。训练完成后，模型会生成对应数据库的滑坡易发性指数栅格图。图7展示了由k=2标准差数据库（STR1）生成的盆地1易发性图。
第五阶段：模型性能验证与比较 为了客观评估不同数据库所产生易发性图的质量，研究采用受试者工作特征曲线下面积（Area Under Curve, AUC）作为性能指标。AUC值越接近1，表示模型预测能力越好；0.5表示预测结果与随机猜测无异。 1. 训练区验证：首先，在盆地1内部进行验证。将生成的9张易发性图作为输入，与盆地1的布尔型滑坡分布图（滑坡=1，非滑坡=0）进行ROC分析，得到9个AUC值（见表4）。 2. 独立验证区验证：这是更严格的检验。将训练好的9个ANN模型（其权重和结构已固定）直接应用于完全未参与训练的盆地2数据。根据盆地2的9个环境因子图，生成9张新的易发性图。然后，将这些图与盆地2的实际滑坡分布图进行ROC分析，得到另一组AUC值（见表4）。
主要研究结果 1. STR1策略的性能表现：在盆地1（训练区）的验证中，基于不同k值数据库生成的易发性图AUC值在0.739到0.873之间。其中，k=2标准差的数据库取得了最佳性能（AUC = 0.873）。这意味着使用该数据库（代表至少75%的数据落在均值±2倍标准差范围内）训练的ANN模型，能够最准确地“复现”训练区已知的滑坡分布。 2. STR2策略的性能表现：种子单元法（STR2）在盆地1也表现良好，AUC值为0.819，优于大多数k值下的STR1结果，但略低于k=2时的最佳STR1结果。 3. 独立验证结果：更具说服力的结果来自对盆地2的独立验证。结果显示，基于k=2标准差数据库（STR1）生成的易发性图再次取得了最高的AUC值（0.761）。STR2方法在此处的AUC值为0.711。这表明，基于切比雪夫定理（k=2）构建的数据库不仅能在训练数据上表现优异，其泛化能力和预测未知区域滑坡位置的能力也最强。 4. k值影响规律：AUC值并非随k值增大而单调增加。从k=1.25到k=2.0，AUC值呈现上升趋势，在k=2.0达到峰值；之后从k=2.25到k=3.0，AUC值开始下降。这表明，样本的代表性存在一个“最优窗口”。k值太小（如1.25）包含的数据比例（36%）可能不足以充分代表总体特征；k值太大（如3.0）虽然包含了近90%的数据，但也可能纳入了过多与滑坡发生机制无关的“噪声”数据或边缘数据，从而稀释了核心特征，导致模型性能下降。k=2.0（包含至少75%的数据）似乎在本案例中达到了特征代表性与数据纯净度之间的最佳平衡。
研究结论与意义 本研究的主要结论是，应用切比雪夫定理进行滑坡数据库构建是一种强大且客观的有效方法。通过该方法（STR1，特别是k=2时）提取的数据库，能够生成预测性能更优的滑坡易发性图。 * 科学价值： 1. 提出了一个新颖、客观的采样框架：研究首次将切比雪夫定理系统性地引入滑坡易发性制图的数据准备阶段，为解决“如何选择代表性样本”这一长期存在的难题提供了一个分布自由（distribution-free）的数学解决方案。该方法减少了传统采样中的主观任意性。 2. 明确了数据代表性对模型性能的关键影响：研究通过严谨的对比实验（9套数据库、训练与独立验证）清晰地证明，即使使用相同的方法（ANN）和相同的评估因子，不同的数据库构建策略也会导致最终易发性图性能的显著差异。这强调了高质量数据准备在滑坡建模中的极端重要性，其影响可能不亚于甚至超过模型算法本身的选择。 3. 解决了样本不平衡问题：传统的随机划分训练/测试集方法无法保证样本的统计代表性。切比雪夫定理通过确保所选样本覆盖了各环境因子在滑坡/非滑坡区域的主要分布范围，有效缓解了样本不平衡和不具代表性的问题。 * 应用价值：该方法具有普适性，可广泛应用于其他地区和其他基于统计或机器学习的环境地质灾害易发性、危险性评估中。它为从事相关制图工作的科研人员和工程师提供了一个可操作、可重复的标准化数据预处理流程，有助于提高制图结果的可靠性和可比性。
研究亮点 1. 方法创新性强：将经典统计学定理（切比雪夫定理）创造性地应用于地学领域的空间数据采样问题，是学科交叉和方法移植的成功范例。 2. 实验设计严谨：研究不仅对比了新方法（STR1）内部不同参数（k值）的效果，还与当前主流方法（STR2）进行了横向对比；同时进行了严格的模型训练区验证和独立的测试区验证，使结论非常坚实。 3. 聚焦核心问题：研究没有追逐更复杂的模型算法，而是回归到滑坡建模的源头——数据质量本身，解决了该领域一个基础但关键的问题。 4. 结果明确且有启发性：研究不仅找到了本案例中的最优k值（2.0），还揭示了数据代表性与模型性能之间的非线性关系，即并非数据越多越好，而是“代表核心特征的恰当数据”最好，这对后续研究具有重要指导意义。
其他有价值的发现 研究指出，由于所有滑坡均发生在同一岩性地层内，因此岩性因子未被纳入。这反而凸显了所提方法在岩性均一区域或无法获取详细岩性数据区域的应用优势：即使缺少这一关键因子，通过优化地形地貌等易获取因子的数据采样策略，依然可以获得高质量的易发性图。此外，研究采用的ANN模型被证实能够有效处理滑坡这种复杂现象，并且其性能在不同数据库间的差异主要归因于输入数据的质量，而非模型本身，这进一步佐证了数据准备环节的决定性作用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问