中国血吸虫病防治杂志(中英文) ›› 2026, Vol. 38 ›› Issue (1): 14-19, 53.
李银龙1,李琴1,郭苏影1,李仕祯1,张利娟1,曹淳力1,许静1, 2*
LI Yinlong1, LI Qin1, GUO Suying1, LI Shizhen1, ZHANG Lijuan1, CAO Chunli1, XU Jing1, 2*
摘要: 目的 采用机器学习方法分析长江三角洲地区钉螺密度的影响因素,并识别关键环境因子,为钉螺精准控制提供参考。方法 在中国疾病预防控制中心寄生虫病防治信息管理系统中,获取2011—2021年长江三角洲(上海市、江苏省、浙江省和安徽省)以行政村为单位的钉螺调查数据。于谷歌地球引擎网站获取研究区域海拔、坡度、地形、归一化植被指数(normalized difference vegetation index,NDVI)、植被类型、土壤类型,总石油烃(total petroleum hydrocarbon,TPH)、铵态氮、无机氮、溶解氧含量,水体pH值、化学需氧量(chemical oxygen demand,COD)、无机磷含量等环境因子数据;于哥白尼气候数据存储库获取研究区域年降水量、干旱指数和年均温度(annual mean temperature,AMT)等气候因子数据。将2011—2021年长江三角洲地区钉螺调查数据随机分为训练集(占70%)与测试集(占30%),基于R 4.3.0软件,选取随机森林(random forest,RF)、极端梯度提升(eXtreme gradient boosting,XGBoost)、支持向量机(support vector machine,SVM)、梯度提升机(gradient boosting machine,GBM)和神经网络(neural network,NN)模型进行钉螺密度模型构建与对比分析。采用XGBoost模型构建钉螺密度预测模型,量化各环境因子对钉螺分布的影响程度。计算沙普利加性解释(Shapley additive explanations,SHAPs)值,估计各变量对模型预测结果的平均贡献度,筛选影响钉螺种群密度的核心环境因子。结果 5种机器学习模型中,XGBoost模型决定系数、均方误差、均方根误差和平均绝对误差分别为0.855、0.188、0.434和0.155,综合评价结果最优。基于XGBoost模型分析钉螺密度影响因素,16种环境因子中,SHAPs值排序居前4位的为年降水量、海拔、干旱指数和NDVI,累计SHAPs值贡献度为75%,高于其他环境因子。当NDVI > 0.6时,钉螺密度随NDVI值升高而增加,并于NDVI为0.8时达峰值(1.60只/0.1 m2)。当海拔处于14 ~ 40 m时,钉螺密度随海拔升高而增加。当年降水量为900 ~ 1 300 mm时,钉螺密度缓慢上升;年降水量为1 300 ~ 1 500 mm时,密度迅速增高至峰值(1.52只/0.1 m2)。当干旱指数在0.8 ~ 1.1时,钉螺密度迅速增高至峰值(1.60只/0.1 m2);当干旱指数> 1.1时,钉螺密度逐渐降低。结论 XGBoost模型在长江三角洲地区钉螺密度预测与关键环境因子识别中应用效果较优。年降水量、海拔、干旱指数和NDVI是影响该地区钉螺分布与密度的关键环境因子。
中图分类号: