基于缺失森林的医疗大数据缺失值插补被引量：7

Missing Value Interpolation for Medical Big Data Based on Missing Forest

下载PDF

导出

摘要为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。 To address the adverse effects of missing data in the medical dataset on the performance of the classifier and on downstream tasks.We use the missing forest interpolation method to interpolate missing values in medical datasets.The method first trains a random forest model with observations of complete data in the dataset.Then the trained random forest model is used to predict the missing data.Finally,the above process is repeated iteratively to complete the missing data interpolation.On two medical datasets,according to NRMSE(Normalized Root Mean Squared Error)and PFC(the Proportion of Falsely Classified)evaluation metrics,the missing forest interpolation method has lower error and better interpolation than K-nearest neighbor interpolation,multiple interpolation and GAIN(Generative Adversarial Imputation Nets)interpolation.The stability of the missing forest interpolation method is demonstrated by analyzing the relationship between glutamate aminotransferase(ALT:ALanine aminoTransferase)and diabetes dose-response using the diabetes dataset.

作者白洪涛栾雪何丽莉毕亚茹张婷婷孙成林 BAI Hongtao;LUAN Xue;HE Lili;BI Yaru;ZHANG Tingting;SUN Chenglin(College of Software,Jilin University,Changchun 130022,China;College of Conmputer Science and Technology,Jilin University,Changchun 130022,China;First Hospital,Jilin Univerity,Changchun 130012,China)

机构地区吉林大学软件学院吉林大学计算机科学与技术学院吉林大学第一医院

出处《吉林大学学报（信息科学版）》 CAS 2022年第4期616-620,共5页 Journal of Jilin University（Information Science Edition）

基金国家重点研发计划基金资助项目(2017YFC1309805) 吉林省科技厅自然科学基金资助项目(20210101181JC)。

关键词缺失数据插补缺失森林插补法大数据 ALT与糖尿病剂量-反应 missing data interpolation missing forest interpolation big data alanine amino transferase(ALT)and diabetes dose-response

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1崔璐,刘桂锋.单细胞RNA-seq数据缺失元素补全算法[J].吉林大学学报（理学版）,2020,58(5):1229-1231. 被引量：2
2晔沙.数据缺失及其处理方法综述[J].电子测试,2017,28(9X):65-67. 被引量：14
3岳勇,田考聪.数据缺失及其填补方法综述[J].预防医学情报杂志,2005,21(6):683-685. 被引量：30
4万星,周水生.一种自适应的鲁棒性矩阵补全方法[J].吉林大学学报（理学版）,2021,59(5):1151-1160. 被引量：1
5刘文慧,白金娥,张慧.血清丙氨酸氨基转移酶及γ-谷氨酰基转移酶水平与2型糖尿病的关系[J].检验医学,2018,33(1):20-25. 被引量：9

二级参考文献31

1岳勇,田考聪.数据缺失及其填补方法综述[J].预防医学情报杂志,2005,21(6):683-685. 被引量：30
2Rubin D.Inference and missing data[J]. Biometrika,1976,63(3):581-592.
3Little RJA,Rubin DB.Statistical Analysis with Missing Data[M].New York:Wiley and Sons,Inc.1987.
4Nordheim EV.Inference from nonrandomly missing data:An example from a genetic study on Turner' s Syndrome [J].Am Statist Assoc,1984,79:772-780.
5Horton NJ,Laird NM.Maximum likehood analysis of generalized linear models with missing covariates [J].Statist Meth Med Res,1988,8(1):37-50.
6Allison PD.Multiple imputation for missing data:A cautionary tale [J].Sociological Methods and Research,2000,28(3):301-309.
7Bello AL.Imputation techniques in regression analysis:Looking closely at their implementation [J].Computational Statistics and Data Analysis,1995,20:45-57.
8Rao JNK,Shao J.Jackknife variance estimation with survey data under hot deck imputation [J].Biometrika,1992,79:811-822.
9Rubin DB.Multiple imputations in sample surveys [J].Am Statist Assoc,1978:20-34.
10Meng XL,Rubin DB.Performing likelihood ration tests with multiple imputed data sets [J ].Biometrika,1992,79 (1):103-111.

共引文献51

1顾琛剑.血清丙氨酸氨基转移酶(ALT)水平与糖尿病患者糖脂代谢水平的关系分析[J].实用妇科内分泌电子杂志,2020,7(14):159-160.
2罗旭,程承旗,李勇,陈晓雪,冯仲科.SPSS在数据缺失值处理中的应用[J].水土保持研究,2007,14(4):426-429.
3文强,孟刚,余永强,潘蕾,王军,常璐.基于灰色动态GM(1,1)的医疗器械不良事件报告数量预测模型研究[J].医疗装备,2008,21(4):1-5.
4赵飞,张志杰,刘建翔,王海银,周艺彪,彭文祥,赵根明,姜庆五.疾病监测资料中缺失值最佳填充次数的研究[J].中国卫生统计,2009,26(5):455-458. 被引量：2
5赵飞,张志杰,刘建翔,王海银,周艺彪,彭文祥,赵根明,姜庆五.不同缺失值填充方法在全国血吸虫病监测资料中的比较研究[J].中国卫生统计,2010,27(2):125-128. 被引量：1
6胡思贵,赵明.完全随机缺失数据下配对试验的Bayes分析[J].数学的实践与认识,2011,41(8):73-77. 被引量：1
7佟昕,高强.统计学中的数据缺失及解决方法[J].辽宁经济职业技术学院学报.辽宁经济管理干部学院,2011(2):15-16. 被引量：4
8唐健元,杨志敏,杨进波,黄钦,吴春芳,冯毅.临床研究中缺失值的类型和处理方法研究[J].中国卫生统计,2011,28(3):338-341. 被引量：27
9陈渊成,张菁.确证性临床试验中数据缺失的处理指南[J].中国新药杂志,2012,21(7):732-736. 被引量：10
10鲁纯.灰色建模中数据缺失值处理方法探讨[J].辽宁省交通高等专科学校学报,2013,15(2):18-22. 被引量：1

同被引文献70

1柏语蔓,于莲芝.基于象群-蚁群算法改进的小车路径规划[J].智能计算机与应用,2021,11(12):179-183. 被引量：2
2唐健元,杨志敏,杨进波,黄钦,吴春芳,冯毅.临床研究中缺失值的类型和处理方法研究[J].中国卫生统计,2011,28(3):338-341. 被引量：27
3吴小姣,李高明,易大莉,刘岭,张彦琦,易东,伍亚舟.基因表达谱的非参缺失森林填补算法研究[J].中国卫生统计,2016,33(6):1068-1070. 被引量：5
4毛云鹏,龙虎,邓韧,郭欣.数据清洗在医疗大数据分析中的应用[J].中国数字医学,2017,12(6):49-52. 被引量：12
5杨志明,杨婷.“互联网+测评”中的数据有效性分析[J].教育测量与评价,2017(12):5-12. 被引量：3
6李琳,杨红梅,杨日东,胡珊,张学良,周毅.基于临床数据集的缺失值处理方法比较[J].中国数字医学,2018,13(4):8-10. 被引量：12
7田英杰,苏运,郭乃网,姚博,庞悦,周向东.基于时间序列嵌入的电力负荷预测方法[J].计算机应用与软件,2018,35(11):55-60. 被引量：21
8杜成龙.基于高安全等级的云存储信息架构及设计分析[J].信息技术,2019,43(11):160-163. 被引量：3
9邓建新,单路宝,贺德强,唐锐.缺失数据的处理方法及其发展趋势[J].统计与决策,2019,0(23):28-34. 被引量：79
10杨玉洁,毛阿燕,乔琛,都恩环,黄佳文,张旭,邱五七.精准医疗的概念内涵及其服务应用[J].中国医院管理,2020,40(1):5-8. 被引量：19

引证文献7

1李超,张艳玲,张清媛.面向医疗系统的隐私保护疾病预测研究[J].计算机测量与控制,2023,31(4):219-224. 被引量：1
2陶怡汐,牛彦敏,刘馨媛.认知诊断中缺失数据的插补方法比较研究[J].安阳工学院学报,2023,22(4):61-67.
3李夏,汪晓云,丁沈杰,张玥.基于统计分布信息的上市公司随机缺失数据的KNN插补[J].安徽工程大学学报,2023,38(4):90-94.
4曹磊,刘强,吴承高,乐爱平,刘威.临床输血预测模型构建中缺失值及数据降维处理方法研究[J].中国卫生信息管理杂志,2023,20(6):1026-1032.
5张海芳,何清龙,张林.基于扩大周期的电力负荷预测模型[J].电子科技,2024,37(2):1-5. 被引量：1
6夏婷婷,林康,张潇予,刘海忠.基于类的余弦距离聚类缺失值填补方法研究[J].河南科技,2024,51(8):28-35.
7甄珍,刘昱鑫,陈斌,任海萍,刘亚芝.基于乌鸦搜索算法的医疗数据填补方法[J].现代仪器与医疗,2024,30(3):48-53.

二级引证文献2

1张昊东,王港(综述),张贤华,贾婷婷(审校).人工智能在创伤救治及教学中的应用及研究[J].医学研究与战创伤救治,2023,36(7):701-705. 被引量：1
2钱家阳,李小琴.考虑低压配电网弹性提升的两阶段风险控制方法[J].东北电力技术,2024,45(6):1-4.

1王俊杰,焦柯,彭子祥.基于神经网络的建筑结构安全评估模型研究[J].建筑科学与工程学报,2022,39(4):174-182. 被引量：4
2马亮,郭力强,刘丙杰,杨静.基于集成学习的装备小样本试验缺失数据插补方法研究[J].计算机测量与控制,2022,30(8):116-121. 被引量：1
3白峰,杨剑飞,张小雷,刘亚彬.结肠直肠癌术后患者健康相关低生活质量风险因素的研究[J].河北医药,2022,44(15):2380-2384. 被引量：3
4常晓,蔡昕,杨光,聂生东.生成对抗网络在医学图像转换领域的应用[J].波谱学杂志,2022,39(3):366-380. 被引量：2
5徐夏楠,张洪.基于信息增益的加权贝叶斯插补法及其在心脏病类医疗缺失数据分析中的应用[J].复旦学报（自然科学版）,2022,61(3):335-341. 被引量：3
6徐晔波,倪颖杰.基于VAEGAN的缺失数据填补研究[J].信息工程大学学报,2022,23(2):224-229.
7Jun Chen,Kangle Wu,Yang Yu,Linbo Luo.CDP-GAN:Near-Infrared and Visible Image Fusion Via Color Distribution Preserved GAN[J].IEEE/CAA Journal of Automatica Sinica,2022,9(9):1698-1701. 被引量：1
8顾兆军,刘婷婷,高冰,隋翯.基于GAN-Cross的工控系统类不平衡数据异常检测[J].信息网络安全,2022(8):81-89. 被引量：2
9高翱,王帅,韩兴臣,张智晟.基于GRU神经网络的WGAN短期负荷预测模型[J].电气工程学报,2022,17(2):168-175. 被引量：8
10Cong Jin,Tao Wang,Xiaobing Li,Chu Jie Jiessie Tie,Yun Tie,Shan Liu,Ming Yan,Yongzhi Li,Junxian Wang,Shenze Huang.A transformer generative adversarial network for multi-track music generation[J].CAAI Transactions on Intelligence Technology,2022,7(3):369-380. 被引量：4

吉林大学学报（信息科学版）

2022年第4期

浏览历史

内容加载中请稍等...

基于缺失森林的医疗大数据缺失值插补被引量：7

参考文献5

二级参考文献31

共引文献51

同被引文献70

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于缺失森林的医疗大数据缺失值插补 被引量：7

参考文献5

二级参考文献31

共引文献51

同被引文献70

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于缺失森林的医疗大数据缺失值插补被引量：7