摘要
当前,全球糖尿病的发病率逐年上升,给医疗卫生系统带来了巨大的负担。开发一种简单有效的糖尿病筛查方法,能在让患者获益的同时减轻相关经济负担。既往对糖尿病预测研究的危险因素都是以数值型或分类型数据作为输入,而部分危险因素在现实电子病历系统中通常是以自由文本的形式记录。深度学习在自然语言处理方面的优势,能够很好地利用上这些数据,使其更适合实际应用。因此,本文提出了一种多模态的深度学习糖尿病预测模型,通过结合体检数据中的结构化数据与文本数据对糖尿病进行预测,并与其他仅能采用结构化数据的模型进行对比。实验结果表明,在外部验证集上该模型的AUC为0.93,超越了其他方法最好的AUC表现(0.92),说明该模型可以挖掘文本语义以提高糖尿病的预测准确性。
基金
国家重点研发计划(2018AAA0102102)。