分享自:

利用可解释机器学习和生成扩散模型改进降雨诱发群发性滑坡的易发性制图:以中国东南部武平县为例

期刊:Computers and GeotechnicsDOI:10.1016/j.compgeo.2026.107989

本研究由同济大学土木工程学院地质与水利工程系的Yu HuangYinke LiLisha HeiJialing ZouDingyu Chen以及同济大学土木工程防灾减灾国家重点实验室的Yu Huang共同完成。研究成果以题为“Explainable machine learning and generative diffusion modeling for improved susceptibility mapping of rainfall-induced clustered landslides: A case study from Wuping county, southeastern China”的论文形式,发表在学术期刊Computers and Geotechnics上,并于2026年2月18日在线出版。

本研究的学术背景属于工程地质和地质灾害风险评估领域,特别聚焦于降雨诱发的滑坡灾害易发性制图。近年来,中国东南部山区极端降雨事件频发,导致大规模、高密度的集群式浅层滑坡,对当地社区和基础设施构成严重威胁。传统的滑坡易发性评估方法多基于线性假设或简化的因子交互作用,难以捕捉降雨、地形、地质等多因素间的复杂耦合机制。此外,现有模型常将降雨视为单一指标(如总降雨量),而忽略了降雨内部结构(如前期累积、短时高强度脉冲)对滑坡触发时空格局的精细控制。同时,机器学习模型常被视为“黑箱”,其决策过程缺乏可解释性。近年来,可解释机器学习框架(如SHAP)和生成式模型(如DDPM)为上述问题提供了新的解决思路,但将二者耦合应用于地质灾害领域仍处于探索阶段。因此,本研究旨在:1)通过结构化的降雨指标揭示集群滑坡的触发机制;2)构建并比较多种机器学习模型,以提升滑坡易发性预测的精度;3)引入可解释方法(IGR, SHAP)阐明关键因子的贡献与作用机制;4)探索利用去噪扩散概率模型进行数据增强,以缓解样本稀疏性和类别边界模糊问题,从而进一步提高模型的泛化能力。

研究工作的详细流程包含七个主要阶段,构成了一个循序渐进的分析框架。首先,构建空间数据库。研究以中国福建省武平县为案例区,针对2024年6月15-16日极端降雨事件诱发的滑坡,建立了包含6005个浅层滑坡点的灾后编目图。通过空间约束采样策略(以滑坡点为中心200米缓冲区外),生成了等量的非滑坡样本点,确保了数据集的平衡。研究共选取了十一类地形、地质、水文、环境和人为因素作为滑坡条件因子,包括:高程(DEM)、坡度、坡向、坡高、平面曲率、剖面曲率、距断层距离、距道路距离、归一化植被指数(NDVI)、地形湿度指数(TWI)以及软化系数。所有栅格数据统一重采样至12.5米空间分辨率并完成归一化。

第二阶段是数据质量控制与预处理。为确保建模的可靠性,研究进行了严格的变量分析。通过皮尔逊相关性分析检验了因子间的线性关联,结果显示所有因子间的相关系数均低于0.70的临界值。利用方差膨胀因子和容忍度进行多重共线性诊断,所有因子的VIF值介于1.02至2.45之间,均小于阈值5,TOL值均大于0.1。这证实了所选条件因子具有良好的独立性和互补性,避免了因高度冗余导致模型不稳定。

第三阶段应用信息增益比进行特征重要性评估。IGR分析结果表明,对滑坡发生贡献最大的因子是软化系数,其次为高程和坡度,这反映了岩土材料在降雨作用下的强度劣化和地形能量条件是研究区滑坡发生的主导控制因素。而平面曲率、距道路距离和坡向等因子重要性相对较低。

第四阶段是构建并比较多种机器学习模型。研究开发并对比了六种模型:基于网格搜索的SVC模型、基于贝叶斯优化的SVC模型、基于灰狼优化算法的SVC模型、基于粒子群优化算法的SVC模型,以及随机森林和XGBoost模型。所有模型均采用70%的数据进行训练,30%用于测试,并使用了10折交叉验证。对于四种SVC变体,模型采用径向基函数核,并利用不同优化算法寻找最优的惩罚系数C和核参数γ。智能优化算法(GWO, PSO)的引入旨在提升参数搜索的效率和全局寻优能力。结果表明,基于交叉熵损失的优化过程中,PSO和GWO收敛速度更快、更稳定。最终,在测试集上,XGBoost模型取得了最佳的综合性能,其曲线下面积(AUC)达到0.915,准确率为0.83,F1分数为0.84,马修斯相关系数为0.67,显著优于其他模型。因此,研究选择XGBoost作为核心模型进行后续的易发性制图。

第五阶段是滑坡易发性制图与SHAP可解释性分析。利用性能最优的XGBoost模型对整个研究区进行预测,生成了连续的滑坡易发性概率图。随后,采用自然断点法(Jenks)将连续概率划分为五级:极低、低、中、高、极高。空间分布显示,高和极高易发区主要沿深切陡峭的山坡、谷坡及山麓地带呈带状连续分布,与实际滑坡集群区域高度吻合。通过计算滑坡密度指数(LDI)进行验证,极高易发区虽仅占研究区面积的23.82%,却包含了绝大部分滑坡(LDI=3.777),而极低易发区虽占38.56%,滑坡占比极低(LDI=0.031),证明了模型具有出色的空间分辨能力。

为进一步揭示模型的决策机制,研究应用了SHAP分析法。全球特征重要性排序显示,坡度(16.36%)和软化系数(15.20%)是最具影响力的因子,其次是高程和距断层距离。SHAP依赖图进一步揭示了各因子的非线性效应和影响方向:例如,高坡度、低NDVI值(植被覆盖差)、高软化系数(材料易软化)均对滑坡发生概率产生正向贡献;而距断层和道路距离越近,滑坡风险越高,反映了构造破碎带和人类工程活动的不利影响。SHAP分析结果与前期IGR分析相互印证,共同构建了一个从统计贡献到物理机制的可解释链路。

第六阶段是引入基于扩散模型的数据增强。针对机器学习模型在决策边界附近(预测概率0.45-0.55的“混淆区”)存在的样本稀疏和分类模糊问题,本研究创新性地引入了去噪扩散概率模型。DDPM通过在11维条件因子空间中学习真实样本的联合概率分布,以迭代去噪的方式生成符合原数据分布的新样本。研究专门针对“混淆区”生成了大约相当于原训练集12%的“硬样本”进行数据增强。经过敏感性分析,确定概率区间[0.45, 0.55]能在捕获足够多误分类样本和保持区域大小适度之间取得良好平衡。

第七阶段评估增强效果。使用经DDPM增强后的数据集重新训练XGBoost模型,并与基线模型进行对比。结果表明,增强后模型的性能得到显著提升:测试集AUC从0.915提高至0.931,敏感性从83.35%提升至85.85%。ROC曲线在低误报率区域上升更陡峭,且95%置信区间变窄。Delong检验的p值小于0.01,证实了性能提升具有统计显著性。这说明DDPM生成的目标样本有效补充了特征空间中的边界样本,使模型学习到了更连续、更稳健的决策边界。

研究的主要结论可归纳为以下几点: 1. 构建了高质量数据库与评估流程:通过严格的质量控制(VIF/TOL诊断)和特征重要性筛选(IGR),确保了建模数据的可靠性,并明确了地形和岩土力学因素是武平县滑坡的主要内在控制因素。 2. 确立了XGBoost为最优模型:在六种对比模型中,XGBooot凭借其捕捉高阶特征交互的能力,取得了最优的预测性能(AUC=0.915)。 3. 生成了高精度的易发性区划图并实现机理解释:XGBooot模型成功识别出与滑坡集群高度吻合的高风险区。SHAP分析量化了各因子的贡献度与非线性作用方向,实现了从“黑箱”预测到“白箱”理解的跨越,揭示了“地形-岩性软化”的核心控制框架。 4. 验证了扩散模型数据增强的有效性:创新性地将DDPM应用于滑坡易发性建模的数据增强。通过针对“混淆区”生成虚拟样本,显著提升了XGBoost模型的泛化能力和预测精度(AUC提升至0.931),为解决地质灾害领域样本稀缺和类别不平衡问题提供了新范式。 5. 提出了“可解释-生成式”混合框架:本研究耦合了可解释机器学习(XGBoost+SHAP)与生成式概率建模(DDPM),前者保证了模型的物理可解释性,后者通过数据增强提升了模型在有限样本下的鲁棒性,形成了一个兼具高精度、高可解释性和强泛化能力的滑坡易发性评估新方法。

本研究的科学价值与应用价值体现在多个方面:在科学层面,它不仅深化了对降雨诱发集群滑坡“前期累积-短时脉冲”双触发机制的理解,更重要的是为机器学习在地质灾害领域的应用建立了一套从数据质量控制、模型优选、结果解释到数据增强的完整、可复现的分析框架。首次成功将DDPM生成式模型与可解释机器学习相结合,拓展了人工智能方法在复杂地理过程模拟中的应用边界。在应用层面,该研究提出的混合框架能够显著提高滑坡易发性区划图的准确性,为东南部山区的滑坡风险精细化评估、应急响应决策和防灾减灾规划提供了可靠的技术支持。研究所强调的“物理可解释性”使得模型结果更容易被地质工程师和灾害管理者理解和采纳,增强了科研成果向实际应用的转化能力。

本研究的亮点在于其方法学的创新性与系统性: 1. 多模型对比与智能优化:系统对比了包括传统优化与智能优化(PSO, GWO)在内的多种SVC变体及集成学习模型,明确了XGBoost在复杂非线性问题上的优势。 2. 双层可解释性框架:结合了基于熵的IGR全局筛选和基于博弈论的SHAP局部解释,不仅提供了因子重要性排序,更揭示了各因子对单个样本预测的具体贡献方向和作用形式,实现了从全局到局部的深度机理解析。 3. 生成式数据增强的创新应用:首次将DDPM引入滑坡易发性建模,用于解决样本边界模糊这一经典难题。这种基于概率分布学习的生成方式,比传统过采样方法更能保持原始数据的高维联合分布特征,针对性增强“硬样本”显著提升了模型性能。 4. 结构化降雨指标的引入:超越了单一的降雨总量指标,构建了最大小时雨强、降雨偏度和降雨丰度三个结构性指标,更精细地表征了降雨的时空异质性及其对滑坡的触发作用。

此外,研究也坦诚地指出了其局限性,例如DDPM生成的样本缺乏明确的物理过程对应,可能存在分布漂移风险;降雨指标基于有限站点插值,存在空间不确定性;模型主要基于单次事件,其动态过程模拟和区域迁移性有待进一步验证。这些也为未来的研究指明了方向,例如开发融入物理约束的生成模型、集成动态降雨-入渗过程、以及进行跨区域的外部验证和不确定性量化等。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com