中国血吸虫病防治杂志 ›› 2023, Vol. 35 ›› Issue (3): 225-235,243.
章钰莹1,曹园园2,杨凯3,王伟明2,杨蒙蒙2,柴丽莹1,顾己悦1,李梦月4,卢艳5, 周华云2,朱国鼎2,曹俊2,卢光玉1,6*
ZHANG Yuying1, CAO Yuanyuan2, YANG Kai3, WANG Weiming2, YANG Mengmeng2, CHAI Liying1, GU Jiyue1, LI Mengyue4, LU Yan5, ZHOU Huayun2, ZHU Guoding2, CAO Jun2, LU Guangyu1, 6*
摘要: 目的 基于机器学习算法构建江苏省输入性疟疾病例就医延迟风险预测模型,为江苏省输入性疟疾病例早期发现提供依据。方法 基于中国疾病预防控制中心传染病报告信息管理系统和寄生虫病防治信息管理系统,收集2019年江苏省报告的输入性疟疾病例个案调查、首发症状及初诊时间等信息。以职业、感染疟原虫虫种、主要临床表现、有无并发症、疾病严重程度、年龄、国外居留时间、在国外感染疟疾次数、潜伏期、初诊单位级别、来源国、同行人员和出国途径等13个因素为自变量,以就医延迟时间(≤ 24 h和> 24 h)为因变量,分别运用BP神经网络、logistic回归、随机森林和贝叶斯算法构建输入性疟疾病例就医延迟风险预测模型。使用列线图对logistic回归进行可视化分析,绘制校准曲线对列线图进行评价,并比较4种模型的受试者工作特征曲线(receiver operator characteristic curve,ROC)曲线下面积(area under curve,AUC),以评价模型预测效能。进一步分析各特征数值大小对预测结果的正负影响,应用SHAP算法对各特征重要性进行量化和归因。结果 共纳入输入性疟疾病例244例,其中自出现首发症状后到初诊时间超过24 h的病例累计100例(40.98%)。建立logistic回归模型发现,有疟疾感染史[比值比(odds ratio,OR)= 3.075,95%可信区间(confidential interval,CI):(1.597, 5.923)]、潜伏期长[OR = 1.010,95% CI:(1.001,1.018)]或在省市级医疗机构就医[OR = 12.550,95% CI:(1.158, 135.963)]是输入性疟疾病例就医延迟的危险因素。BP神经网络模型结果分析发现,对输入性疟疾就医延迟影响较大的因素是国外居留时间、潜伏期和年龄。随机森林模型结果分析发现,影响输入性疟疾就医延迟的前5位因素依次为主要临床表现、出国途径、潜伏期、国外居留时间和年龄。贝叶斯模型结果分析发现,影响输入性疟疾就医延迟的前5位因素依次为初诊单位级别、年龄、来源国、疟疾感染史和同行人员。通过比较各模型AUC发现,BP神经网络模型与logistic回归模型总体性能较优(Z = 2.700 ~ 4.641,P均< 0.01),且AUC差异无统计学意义(Z = 1.209,P > 0.05)。Logistic回归模型预测灵敏度(71.00%)和约登指数(43.92%)均高于BP神经网络模型(63.00%和36.61%);而BP神经网络模型预测特异度(73.61%)高于logistic回归模型(72.92%)。结论 国外居留时间长、有疟疾感染史、潜伏期长、高年龄组和在省市级医疗机构就诊的江苏省输入性疟疾病例发生就医延迟的概率较高。基于logistic回归模型和BP神经网络模型构建江苏省输入性疟疾患者就医延迟风险预测模型具有较好预测效能,可为输入性疟疾患者健康管理提供参考。
中图分类号: