|
35.
基于随机森林和最大熵模型的云南省钉螺潜在地理分布预测
张宗亚, 杜春红, 张云, 王洪琼, 宋静, 周济华, 王丽芳, 孙佳昱, 沈美芬, 陈春琼, 江华, 颜嘉琦, 冯锡光, 王文雅, 钱沛君, 薛靖波, 李石柱, 董毅
中国血吸虫病防治杂志(中英文)
2024, 36 (6):
562-571,613.
目的 采用随机森林(random forest,RF)模型与最大熵(maximum entropy,MaxEnt)模型预测云南省钉螺潜在分布区,为云南省钉螺监测和控制提供参考。方法 收集2015—2016年云南省钉螺调查数据并转换为钉螺存在点数据;收集云南省22个环境变量数据,包括年蒸发量、年平均地温、年降水量、年平均气压、年平均相对湿度、年日照时数、年平均气温、年平均风速、≥ 0 ℃积温、≥ 10 ℃积温、干燥度、湿润指数等12个气候变量,归一化植被指数、地貌类型、土地利用类型、海拔高度、土壤类型、土壤质地⁃黏土含量、土壤质地⁃沙土含量、土壤质地⁃粉砂土含量等8个地理变量及国内生产总值、人口分布2个人口经济学变量。经Pearson相关性检验和方差膨胀因子(variance inflation factor,VIF)检验筛选后,基于R 4.2.1 软件biomod2包构建RF、MaxEnt模型及其组合模型,预测2016年后云南省钉螺潜在分布区。采用交叉验证和独立数据验证法,计算受试者工作特征(receiver operator characteristic,ROC)曲线下面积(area under curve,AUC)、真实技巧统计值(true skill statistics,TSS)和Kappa统计量以评价模型预测性能;选择AUC > 0.95且TSS > 0.85的模型输出的环境变量贡献值进行归一化处理,获得环境变量重要性百分比以分析环境变量重要性。结果 累计将148个钉螺存在点数据和15个环境变量纳入RF、MaxEnt模型进行训练,RF与MaxEnt模型预测性能均较佳,AUC均值> 0.9、TSS和Kappa均值均> 0.8,且两模型AUC(t = 19.862,P < 0.05)、TSS(t = 10.140,P < 0.05)和Kappa值(t = 10.237,P < 0.05)差异均有统计学意义;组合模型AUC、TSS和Kappa值分别为0.996、0.954和0.920。独立数据验证发现,RF模型和组合模型建模结果的AUC、TSS和Kappa值均为1,在未知数据建模中表现良好;MaxEnt模型则表现较弱,24%(24/100)的建模结果TSS、Kappa值为0。累计有79个RF模型建模结果和38个MaxEnt模型建模结果及组合模型建模结果AUC > 0.95且TSS > 0.85,被纳入环境变量重要性评价。RF、MaxEnt和组合模型中,年日照时数重要性占比分别为32.989%、37.847%和46.315%;年平均相对湿度重要性占比分别为30.947%、15.921%和28.121%,均为较重要变量。重要环境变量于RF模型建模结果中较集中,于MaxEnt模型建模结果中较分散,而于组合模型建模结果中最集中。采用RF模型预测的2016年后云南省钉螺潜在分布区相对集中,采用MaxEnt模型预测的钉螺潜在分布区相对较大,采用组合模型预测的钉螺潜在分布区突出了RF、MaxEnt模型预测结果共同的钉螺集中分布区。结论 RF和MaxEnt模型可有效预测云南省钉螺潜在分布区,有助于开展有针对性的钉螺防控工作。
相关文章 |
多维度评价 |
评论(0)
|
|