目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weight...目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。展开更多
文摘目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。