分享自:

四种物种分布模型的参数化及其在输入数据完整时的可比性结果

期刊:ecology and evolutionDOI:10.1002/ece3.9827

类型a:学术研究报告

1. 研究团队与发表信息
本研究由Mohsen Ahmadi(伊朗伊斯法罕理工大学自然资源系)、Mahmoud-Reza Hemami(同单位)、Mohammad Kaboli(伊朗德黑兰大学环境科学系)和Farzin Shabani(卡塔尔大学生物与环境科学系)合作完成,于2023年发表在期刊 Ecology and Evolution 上,题为《MaxEnt在输入数据完备时表现可比:四种物种分布模型的参数化研究》。研究通过模型调参与数据修正,评估了四种物种分布模型(Species Distribution Models, SDMs)对地理不平衡数据的预测能力。

2. 学术背景与研究目标
物种分布模型(SDMs)是生态学与保护生物学的重要工具,用于预测物种的潜在栖息地。然而,物种分布数据常存在空间偏差(spatial bias),即采样点集中在易达区域,导致模型预测失真。本研究聚焦于珍稀物种山地蝰蛇复合体Montivipera raddei complex, MRC),其分布数据因采样不均衡而呈现“北多南少”的偏差。研究目标包括:
1. 整合输入数据修正(背景加权法)与模型参数化(针对四种SDMs),提升模型性能;
2. 对比广义线性模型(GLM)、梯度提升模型(GBM)、随机森林(RF)和最大熵模型(MaxEnt)在偏差数据下的表现;
3. 验证模型对新发现种群的预测能力,为保护规划提供依据。

3. 研究流程与方法
研究分为四个核心步骤:

(1)数据准备与变量筛选
- 物种分布数据:收集MRC在伊朗、土耳其和亚美尼亚的91个分布点,剔除5公里缓冲区内的重复点,最终保留82个点,其中70个用于训练,12个新发现点位作为独立测试集。
- 环境变量:选取6个关键变量,包括气候(年均温、温度季节性、年降水、降水季节性)和植被(增强型植被指数EVI的年均值与季节性),通过方差膨胀因子(VIF)检验排除多重共线性(所有VIF)。

(2)模型参数化与背景数据方案
- 四种SDMs调参
- GLM:使用二次项和逐步AIC选择;
- GBM:测试学习率(0.001–0.1)、树复杂度(1–5)和子采样比例(0.5–0.8),最优参数为学习率0.01、树深5、树数1800;
- RF:调整树数(500–1000)、节点大小(1–5)和分裂变量数(mtry=2–3);
- MaxEnt:通过R包ENMeval优化特征组合(LQHP)和正则化乘数(RM=1.5)。
- 背景数据方案:对比随机背景(1万随机点)与背景加权(基于分布点密度概率采样),后者可缓解空间偏差。

(3)模型评估与性能指标
- 阈值独立指标:曲线下面积(AUC)衡量整体判别能力;
- 阈值依赖指标:真实技能统计(TSS = 灵敏度+特异度–1),以训练集10%分位数作为阈值;
- 敏感性分析:绘制灵敏度-特异度随阈值变化的曲线,评估模型稳定性。

(4)结果验证与空间预测
- 使用独立测试集验证模型,生成栖息地适宜性地图,计算模型间预测结果的相关系数。

4. 主要结果与发现
1. 模型性能差异
- 训练数据:所有模型AUC>0.9,但测试数据表现分化。GBM和RF对训练数据过拟合(灵敏度高但测试灵敏度骤降),GLM虽预测稳定但特异度低(易高估未采样区)。
- MaxEnt在两种背景方案下均表现最佳(测试AUC=0.95,TSS=0.80),且预测地图相关性最高(r=0.85)。

  1. 背景加权的影响

    • GBM和RF在加权后预测一致性显著下降(r=0.45–0.42),而MaxEnt保持稳健。
    • 响应曲线显示,GBM/RF在加权后环境变量关系更破碎,MaxEnt则保持平滑(图4)。
  2. 阈值选择的重要性

    • 单一阈值(如10%分位数)可能掩盖模型缺陷,全阈值分析揭示GBM/RF在低阈值下特异度虚高、灵敏度不足的问题(图3)。

5. 结论与科学价值
- 核心结论:MaxEnt能平衡外推性(预测新区域)与内插性(捕捉复杂关系),是处理地理偏差数据的最佳选择;决策树模型(GBM/RF)易过拟合,GLM则过于保守。
- 应用价值:为稀有物种保护提供方法论指导,尤其在数据不平衡时推荐MaxEnt结合背景加权法。
- 理论意义:揭示了不同SDMs算法对偏差数据的敏感性,强调模型参数化与数据修正的协同必要性。

6. 研究亮点
1. 方法创新:首次系统整合背景加权与多模型参数化,提出标准化工作流程;
2. 案例特殊性:以山地蝰蛇为对象,填补了爬行动物SDMs研究的空白;
3. 技术严谨性:通过全阈值分析和独立测试集验证,避免AUC的误导性结论。

7. 其他价值
研究开源了所有数据与代码(Dryad存储库),为后续研究提供可重复性范例。此外,文中对SDMs不确定性的讨论(如采样偏差、尺度效应)对生态建模领域具有普适参考意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com