基于聚类的连续型数据缺失值充填方法被引量：12

Clustering-based Missing Value Filling Method for Continuous Data

下载PDF

导出

摘要在大数据应用中,多数建模方法是在完备数据集基础上进行的,但在数据采集过程或存储过程中容易出现数据缺失的现象,导致无法建模。为此,提出一种基于聚类的递归充填方法。使用同类簇的均值对不完备数据进行预填充,形成初始完备数据集,针对得到的完整数据进行聚类,并运用同类簇的均值修正初始充填值。根据充填效果误差判定充填稳定性,并进行多次递归聚类修正充填值,直到前后两次充填较为稳定或迭代次数超过阈值时停止迭代。实验结果表明,与均值充填、K最近邻充填、聚类充填及粗糙集不完备数据分析等方法相比,该方法能够进行更为精准的充填,使得最终充填更加接近真实数据。 In big data applications,most modeling methods are based on a complete data set,but data missing in the data acquisition process or storing process tend to result in failure to modeling.Therefore,a clustering-based recursive filling method is proposed.The incomplete data is pre-filled using the mean of the same cluster to form an initial complete data set.The complete data obtained are clustered,and the initial filling is corrected using the mean of the same cluster.The filling stability is determined according to the deviation of filling results,and the filling value is corrected through multiple times of recursive clustering until the last two times of filling is stable or the number of iterations exceeds the threshold.Experimental results show that compared with the methods of mean filling,K nearest neighbor filling,cluster filling and incomplete data analysis for rough sets,the method can implement more precise filling,making the final filling more close to real data.

作者李国和杨绍伟吴卫江郑艺峰 LI Guohe;YANG Shaowei;WU Weijiang;ZHENG Yifeng(Beijing Key Lab of Petroleum Data Mining ,China University of Petroleum(Beijing), Beijing 102249,China;College of Geophysics and Information Engineering,China University of Petroleum(Beijing), Beijing 102249,China;Key Laboratory of Data Science and Intelligence Application ,Minnan Normal University,Zhangzhou,Fujian 363000,China;School of Computer Sciences,Minnan Normal University,Zhangzhou,Fujian 363000,China)

机构地区中国石油大学(北京)石油数据挖掘北京市重点实验室中国石油大学(北京)地球物理与信息工程学院闽南师范大学数据科学与智能应用福建省高等学校重点实验室闽南师范大学计算机学院

出处《计算机工程》 CAS CSCD 北大核心 2019年第9期32-39,共8页 Computer Engineering

基金国家自然科学基金(61701213) 国家油气重点专项子课题(G-5800-08-ZS-WX) 中国石油大学(北京)克拉玛依校区科研启动基金(RCYJ2016B-03-001) 福建省教育厅中青年基金(JA15300)

关键词缺失值预充填聚类递归充填平方误差 missing value prefilling clustering recursive filling square error

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1高科,刁兴春,曹建军.含缺失属性值的问题数据检测与修复[J].计算机工程与设计,2016,37(3):643-649. 被引量：9
2韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
3杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
4卜范玉,陈志奎,张清辰.基于聚类和自动编码机的缺失数据填充算法[J].计算机工程与应用,2015,51(18):13-17. 被引量：7
5焦媛.云计算下多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(2):262-265. 被引量：1
6顾爱华.云计算网络中高维数据标准化处理优化仿真[J].计算机仿真,2017,34(3):317-320. 被引量：13
7牛咏梅.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(7):115-119. 被引量：10

二级参考文献81

1刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
2TROYANSKAYA O,CANTOR M,SHERLOCK G,et al.Missing value estimation methods for DNA microarrays[J]. Bioinformatics,2001,17:520-525.
3SHIGEYUKI OBA, MASA-AKI SATO,ICHIRO TAKEMASA,et al.A Bayesian missing value estimation method for gene expression profile data[J]. Bioinformatics,2003,19(16) .
4KIMY H,GOLUBZ GH,PARKY H.Missing Value Estimation for DNA Microarray Gene Expression Data: Local Least Squares Imputation[J]. Bioinformatics,2004.
5KI-YEOL KIM, BYOUNG-JIN KIM,GWAN-SU YI.Reuse of imputed data in microarray analysis increases imputation efficiency[J].BMC Bioinformatics 2004,5:160.
6贾俊平.统计学[M].北京:中国人民大学出版社,2002..
7SPELLMAN PT,SHERLOCK G,ZHANG MQ,et al.Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization[J].Mol Biol Cell,1998,9(12):3273-3297.
8DERISI JL,IYER VR,BROWN PO.Exploring the metabolic and genetic control of gene xpression on a genomic scale[J]. Science,1997,278,680-686.
9GASCH AP,SPELLMAN PT,KAO CM,et al.Genomic expression programs in the response of yeast cells to environmental changes[J]. Mol Biol Cell,2000,11(12):4241-4257.
10DUDOIT S,YANG YH,CALLOW MJ,et al.Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments[J].Statistica Sinica,2002,12(1):111-139.

共引文献67

1王雅男,万方浩,沈文君.外来入侵物种的风险评估定量模型及应用[J].昆虫学报,2007,50(5):512-520. 被引量：21
2周秀梅,李作春,覃泽.有序填充微阵列缺失数据[J].计算机工程与应用,2009,45(22):111-113.
3王雪飘,张宏亭,李学仁.基于马氏距离的飞行缺失数据估计方法[J].火力与指挥控制,2009,34(8):113-115. 被引量：4
4刘星毅.基于马氏距离和灰色分析的缺失值填充算法[J].计算机应用,2009,29(9):2502-2504. 被引量：6
5刘星毅,韦小铃.基于欧式距离的最近邻改进算法[J].广西科学院学报,2010,26(4):409-411. 被引量：9
6陈欢,黄德才.基于广义马氏距离的缺损数据补值算法[J].计算机科学,2011,38(5):149-153. 被引量：11
7路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
8任志伟,黄景涛,罗威,江爱朋.电站锅炉缺失数据的遗传自适应填补方法[J].兰州理工大学学报,2013,39(2):75-79. 被引量：2
9包海青,安慧君,贺晓辉,于楠楠.基于马氏距离的TM数据森林分类方法研究[J].内蒙古农业大学学报（自然科学版）,2013,34(2):61-64. 被引量：3
10陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10

同被引文献81

1韩卫国,王劲峰,胡建军.交通流量数据缺失值的插补方法[J].交通与计算机,2005,23(1):39-42. 被引量：24
2杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
3刘星毅.基于马氏距离和灰色分析的缺失值填充算法[J].计算机应用,2009,29(9):2502-2504. 被引量：6
4张颖.改进的T-S模糊神经网络在化工软测量中的应用[J].电子测量与仪器学报,2010,24(6):585-589. 被引量：28
5李宏,阿玛尼,李平,吴敏.基于EM和贝叶斯网络的丢失数据填充算法[J].计算机工程与应用,2010,46(5):123-125. 被引量：21
6朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(12):139-141. 被引量：117
7廖慧敏,林燧恒.数据缺失机制对逐步回归变量筛选的影响[J].中国卫生统计,2011,28(4):400-401. 被引量：4
8武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
9孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2392
10彭基伟,吕文华,行鸿彦,武向娟.基于改进GA-BP神经网络的湿度传感器的温度补偿[J].仪器仪表学报,2013,34(1):153-160. 被引量：122

引证文献12

1路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
2戈士文,张艳,腊胜明,李月华.气血葆口服液与阿霉素合用对荷瘤小鼠化疗的增效作用[J].河南中医,2000,20(3):20-21. 被引量：4
3李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
4丁敬安,张欣海,胡博,周国民.基于集成学习的不完备数据补全算法研究[J].中国电子科学研究院学报,2020,15(1):78-83. 被引量：5
5杜春丽,任雪莹,杜子杰.湖北省磷矿资源生态开发效率评估与分类管理[J].金属矿山,2020,49(6):198-203. 被引量：2
6黄紫成,李影.基于模糊C均值聚类的缺失数据填充方法[J].吉首大学学报（自然科学版）,2020,41(2):23-26. 被引量：4
7胡雪,彭敦陆.张量表达下的多模态交通缺失数据补全算法[J].小型微型计算机系统,2021,42(1):105-110. 被引量：3
8邹萌萍,彭敦陆.Spark环境下不完整数据集成填充方法[J].小型微型计算机系统,2021,42(1):111-116. 被引量：6
9韩红桂,赵子凡,伍小龙,杨士恒,何政,赵楠.基于改进随机森林的城市污水处理过程运行数据清洗方法[J].北京工业大学学报,2021,47(5):421-430. 被引量：10
10雷明阳,陈静杰,欧晓勇,裴瑛慧.基于张量分解的智能电表电压数据缺失填补算法[J].电网与清洁能源,2021,37(12):8-15. 被引量：10

二级引证文献52

1周松,沈蕾,王伟.从时空大数据的角度分析评价江苏省新冠疫情发展趋势[J].现代测绘,2020(3):5-10. 被引量：6
2陈前军,张蓉,司徒红林,关若丹,徐飚,刘鹏熙,林毅.复康灵胶囊对乳腺癌多药耐药基因p170、GST-π影响的临床研究[J].中国药房,2008,19(21):1650-1652. 被引量：9
3李东梅,蒋晓松,汤力昌,朱思平.扶正解毒法配合新辅助化疗治疗乳腺癌33例临床研究[J].世界中医药,2010,5(6):394-396. 被引量：11
4李东梅,蒋晓松,朱思平,雷叶雁.扶正解毒法配合新辅助化疗治疗乳腺癌的临床研究[J].甘肃中医,2010,23(12):31-33. 被引量：5
5史勤,陈文莉.灸法改善化疗后骨髓抑制动物的实验研究进展[J].江西中医药,2015,46(2):63-64. 被引量：2
6吴永飞,汪江亮,何前松,李开会,闵潇,林宏新.五加双参片对辐射损伤小鼠血清G-CSF水平的影响[J].河南中医,2016,36(1):41-43. 被引量：1
7盛佳钰,刘钰,严兆霞,江科.扶正中药在乳腺癌新辅助治疗中的意义[J].云南中医学院学报,2018,41(3):47-50. 被引量：3
8刘宁,董永梅.移动图书馆用户价值实现路径[J].天津城建大学学报,2021,27(1):70-73.
9支卫建.基于人脸识别和改进K-means的视频检索方法[J].电子元器件与信息技术,2021,5(3):124-125.
10乔馨丹.MBR工艺与人工湿地技术处理农村生活污水效果的探究[J].低碳世界,2021,11(7):63-64. 被引量：6

1任明珠,李海龙,马青亮,周长华.数字多用表自动校准系统的开发与应用[J].计量与测试技术,2019,46(7):84-85. 被引量：8
2缪顺云,徐海芹,刘洋.基于掩模的畸变棋盘格角点检测与排序[J].青岛大学学报（自然科学版）,2019,32(3):14-19. 被引量：2
3张天嵩.单臂试验连续型数据的贝叶斯Meta分析方法及实现[J].中国循证儿科杂志,2019,14(3):212-216. 被引量：3
4许聪聪,许作良.跳-扩散模型下期权定价方法及参数校准[J].数学物理学报（A辑）,2019,39(3):649-663. 被引量：1
5赵晋欢,王长忠.基于模糊粗糙集的辨识矩阵属性约简方法[J].渤海大学学报（自然科学版）,2019,40(2):146-151. 被引量：3
6辛丹凤.电子式互感器检测中存在的问题及改进策略[J].通信电源技术,2019,36(8):153-154.
7王天立,周超.文本数据处理的改进算法研究[J].福建电脑,2019,35(8):60-61. 被引量：1
8周萍萍,颜红海,彭远英.基于高通量GBS-SNP标记的栽培燕麦六倍体起源研究[J].作物学报,2019,45(10):1604-1612. 被引量：7
9王媛媛,陈思全.GuttaFlow2对根管充填效果的体外研究[J].中国医药指南,2019,17(23):19-20.
10张涛,张颖江,黄学松,张甜甜.扁平化网络多出口流量数据高效清洗方法仿真[J].计算机仿真,2019,36(8):280-283.

计算机工程

2019年第9期

浏览历史

内容加载中请稍等...

基于聚类的连续型数据缺失值充填方法被引量：12

参考文献7

二级参考文献81

共引文献67

同被引文献81

引证文献12

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于聚类的连续型数据缺失值充填方法 被引量：12

参考文献7

二级参考文献81

共引文献67

同被引文献81

引证文献12

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于聚类的连续型数据缺失值充填方法被引量：12