高维相关性缺失数据的分块填补算法研究被引量：6

Research on Block Imputation Algorithm for High Dimensional Correlation Missing Data

下载PDF

导出

摘要研究了高维相关性缺失数据的填补方法,提出了分块填补算法。该算法核心思想是:在填补数据的过程中会考虑变量之间的相互关系,仅利用与待填补数据有相关性的数据进行填补,从而降低不相关数据对缺失数据填补的影响,提高数据填补的准确度。同时,该算法能够并行处理缺失数据,从而提高数据填补效率,对于高维缺失数据的填补有重要意义。为了对分块情况未知的缺失数据进行分块,提出了基于k-means聚类的分块算法。大量的仿真实验和基于真实数据集的实验表明,对于相关性数据,分块填补算法能够有效地利用相关信息进行填补,从而提高数据填补准确度。 This paper studies the method of filling the high dimensional correlation missing data,and proposes a new imputation algorithm based on data block.The key idea of the algorithm is to consider the correlation between variables when filling missing data,and only use the data correlated with the missing data to fill,thereby reducing imputation effects of the missing data caused by the irrelevant data,and improving the accuracy of data imputation.At the same time,the proposed imputation algorithm can be implemented in a parallel way,so that it performs efficiently to fill the high dimensional missing data.In order to divide the missing data with unknown information about blocks into several blocks,this paper proposes a block algorithm based on k-means clustering.Simulation research and application show that the proposed imputation algorithm is more effective and accurate to handle the missing for the correlation high dimensional data with considering variables'block relationship than others with not.

作者杨杰杨虎王鲁滨金鑫郭华于亮亮 YANG Jie;YANG Hu;WANG Lubin;JIN Xin;GUO Hua;YU Liangliang(School of Information, Central University of Finance and Economics, Beijing 100081, China;Jingzhou Power Supply Company ICT Branch of State Grid Corporation, Jingzhou, Hubei 434000, China;Liaoning Power Supply Company ICT Branch of State Grid Corporation, Shenyang 110000, China)

机构地区中央财经大学信息学院国网荆州供电公司信通分公司国网辽宁省电力有限公司信息通信分公司

出处《计算机科学与探索》 CSCD 北大核心 2017年第10期1557-1569,共13页 Journal of Frontiers of Computer Science and Technology

基金中央财经大学青年教师发展基金No.QJJ1510 国家电网科技部项目No.SGTYHT/14-JS-188~~

关键词高维相关性数据缺失数据分块填补算法 high dimensional correlation data missing data block imputation algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1张孙力,杨慧中.基于改进的K近缺失数据补全[J].计算机与应用化学,2015,32(12):1499-1502. 被引量：8
2刘春英.基于属性依赖度的缺失值顺序填充算法[J].计算机应用与软件,2013,30(9):215-218. 被引量：2
3王凤梅,胡丽霞.一种基于近邻规则的缺失数据填补方法[J].计算机工程,2012,38(21):53-55. 被引量：14
4张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：12
5陈志奎,杨英达,张清辰,刘旸.基于属性约简的物联网不完全数据填充算法[J].计算机工程与设计,2013,34(2):418-422. 被引量：5
6赵飞,刘奇志,张剡,柏文阳.一种大域数据流中缺失值的填充方法[J].南京大学学报（自然科学版）,2011,47(1):32-39. 被引量：4
7武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
8陈肇强,李佳俊,蒋川,刘海龙,陈群,李战怀.基于上下文感知实体排序的缺失数据修复方法[J].计算机学报,2015,38(9):1755-1766. 被引量：3
9邹薇,王会进.基于朴素贝叶斯的EM缺失数据填充算法[J].微型机与应用,2011,30(16):75-77. 被引量：7
10金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18

二级参考文献116

1王双成,苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048. 被引量：62
2彭红毅,朱思铭,蒋春福.数据挖掘中基于ICA的缺失数据值的估计[J].计算机科学,2005,32(12):203-205. 被引量：9
3张其文,李明.一种缺失数据的填补方法[J].兰州理工大学学报,2006,32(2):102-104. 被引量：7
4Baraldi A.N. Enders C. K. An introduction to modern missing data analyses[J]. Journal of School Psychology. 2010(48 ) :5 - 37.
5Angiulli F. lanni G. Palopoli L. On the complexity of inducing categorical and quantitative association rules [J]. Theoretical Computer Science. 2004(314) :217 - 249.
6Huang,C. C. , A Case - Based Reasoning Model for Supporting Feature Weight and Missing Value Completion [ J ], Industrial and Information Management, NCKU. 2005.
7Gustavo E. A. P. A. Batista and Maria Carolina Monard, AnAnalysis of Four Missing Data Treatment Methods for Supervised Learning[J], Applied Artificial Intelligence, 2003 ( 17 ) : 519 - 533.
8Liu, W.Z, White, A.P. , Thompson, S.G. and Bramer, M. A.Techniques for Dealing with Missing Values in Classification [ J ] , International Symposium on intelligent Data Analysis, 1997:527 - 536.
9Liang, T. H., Wang, C. Y., and Yang, Y. H. A study ofImputation Missing Data for Household Income[J], Journal of Data Analysis, 2006(4) :75 - 101.
10Agrawal, R. and Srikant, R., Fast Algorithm for MiningAssociation Rules [ C ] , Proc. 20th Int'l Conf. Very Large Data Bases, Santiago, Chile, 1994. 487-499.

共引文献142

1王震,张海清,彭莉,汪杰,游凤,李代伟,唐聃.基于奇异值分解的医疗数据信息提取及分类方法[J].成都信息工程大学学报,2020,35(5):537-541. 被引量：1
2"基于家庭收入的保障性住房标准研究"课题组,朱建平,王婷婷,刘晶.基于家庭收入的保障性住房标准研究[J].统计研究,2011,28(10):22-27. 被引量：7
3杨贵军,蔡娟,赵晓云.高相关性辅助变量择优回归插补法[J].统计与信息论坛,2012,27(6):8-13. 被引量：6
4程开富,刘心莲.HWLPCVD多晶硅薄膜的制备及性能分析[J].四川真空,2000(1):23-23.
5李莹,王仲君,赵华玲.基于贝叶斯推断的HIV非线性混合效应联合模型研究[J].统计研究,2012,29(7):86-90. 被引量：2
6林超,崔良中,周钢.基于分类矩阵ID3决策树的数据预处理技术研究[J].舰船电子工程,2013,33(4):28-31. 被引量：1
7赵一丁,李志民,王洪利,刘卫光,楚纪正.基于数据挖掘的仿真模型参数修正[J].计算机应用,2013,33(10):2827-2831.
8吕靖,舒礼莲.基于AdaBoost的不完整数据的信息熵分类算法[J].计算机与现代化,2013(9):31-34. 被引量：3
9宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31
10高峰,迟春梅.决策表中属性的重排[J].山东大学学报（工学版）,2013,43(5):6-12.

同被引文献43

1鄂旭,林爽,金璐璐.海产品安全预警系统缺失数据填补方法[J].计算机工程与应用,2015,51(11):119-123. 被引量：10
2李忠波,杨建华,刘文琦.基于数据填补和连续属性的朴素贝叶斯算法[J].计算机工程与应用,2016,52(1):133-140. 被引量：4
3郑奇斌,刁兴春,曹建军,周星,许永平.结合局部敏感哈希的k近邻数据填补算法[J].计算机应用,2016,36(2):397-401. 被引量：4
4鲍晓蕾,高辉,胡良平.多种填补方法在纵向缺失数据中的比较研究[J].中国卫生统计,2016,33(1):45-48. 被引量：17
5张伯雍,何泾沙.基于安全策略的动态加密技术研究[J].电子设计工程,2016,24(5):19-21. 被引量：6
6张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计,2016,32(1):101-110. 被引量：13
7高科,刁兴春,曹建军.含缺失属性值的问题数据检测与修复[J].计算机工程与设计,2016,37(3):643-649. 被引量：9
8毛玫静,鄂旭,谭艳,杨明婧.基于属性相关度的缺失数据填补算法研究[J].计算机工程与应用,2016,52(6):74-79. 被引量：9
9韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
10马俊涛,高梅国,董健.基于稀疏迭代协方差估计的缺失数据谱分析及时域重建方法[J].电子与信息学报,2016,38(6):1431-1437. 被引量：23

引证文献6

1唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
2李彦,刘军.面向大数据的多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(10):432-435. 被引量：11
3王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
4曹莉,许玉龙.传感器网络矢量关系化数据分块存储方法仿真[J].计算机仿真,2019,36(11):322-326. 被引量：1
5关玉欣,李雷孝.时空大数据的缺失数据流关联修复仿真[J].计算机仿真,2021,38(1):340-343. 被引量：2
6罗清雷,高宝琪,魏伟,马捍超.基于增长模型的电力设备缺失数据筛查算法研究[J].科技通报,2019,0(8):182-185. 被引量：2

二级引证文献21

1姚启芳.基于模糊聚类的养生旅游资源信息检索方法[J].廊坊师范学院学报（自然科学版）,2020,20(1):81-85. 被引量：2
2王志刚,田立勤,毛亚琼.一种基于相关系数加权的离散型数据填补算法与分析[J].现代电子技术,2020,43(9):109-112. 被引量：1
3时巍.云计算下相关性缺失大数据分块填补仿真[J].计算机仿真,2020,37(4):432-435.
4张李平.基于无人机航测的复杂沟谷地形沉降观测方法[J].蚌埠学院学报,2020,9(2):125-128. 被引量：2
5张庆庆.基于局部加权重构的缺失数据自动恢复系统设计[J].自动化与仪器仪表,2020(5):110-113. 被引量：1
6罗飞.基于机器学习的汉英翻译自动校准方法研究[J].自动化与仪器仪表,2020(8):146-149. 被引量：3
7周琦,李明.基于频谱信息的网络多缺陷干扰抑制系统设计[J].现代电子技术,2020,43(18):89-91. 被引量：1
8金秋,林馥.定向网络中隐藏可逆数据的分层追踪算法[J].计算机仿真,2020,37(10):226-229.
9赵洪山,寿佩瑶,马利波.低压台区缺失数据的张量补全方法[J].中国电机工程学报,2020,40(22):7328-7336. 被引量：25
10岳根霞,刘金花,刘峰.基于决策树算法的医疗大数据填补及分类仿真[J].计算机仿真,2021,38(1):451-454. 被引量：13

1柯易.并行处理计算机[J].国外科技消息,1989(16):3-4.
2程念贫.计算机技术现状与发展趋势[J].电子参考,1995(9):1-8.
3赫玉莲.微型机发展动态[J].半导体技术,1991,7(3):39-42.
4孙钟秀,王鼎兴.并行处理—必须高度重视的研究方向[J].国际学术动态,1991(4):32-33.
5周建良.超并行处理计算机的现状及发展趋势[J].计算机世界月刊,1992(8):4-8.
6Silv.,RD,邵惠玲.用于并行处理的分布式成批系统[J].软件,1990,11(6):490-499.
7金哲凡,俞定国,杨浩,周忠成.高并发环境下网络信息缺失数据修复方法仿真[J].计算机仿真,2017,34(9):374-377. 被引量：7
8于力超.纵向调查中缺失数据的来源及插补调整方法[J].中央民族大学学报（自然科学版）,2017,26(3):32-36. 被引量：1
9刘宁,戴吾蛟,刘斌.一种抗差的形变数据插补方法[J].测绘科学,2017,42(9):126-131. 被引量：4
10毛鹏宇,陈义,孟鑫.气象数据缺失时地基GPS反演可降水量方法研究[J].大地测量与地球动力学,2017,37(10):1049-1052. 被引量：3

计算机科学与探索

2017年第10期

浏览历史

内容加载中请稍等...

高维相关性缺失数据的分块填补算法研究被引量：6

参考文献12

二级参考文献116

共引文献142

同被引文献43

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

高维相关性缺失数据的分块填补算法研究 被引量：6

参考文献12

二级参考文献116

共引文献142

同被引文献43

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

高维相关性缺失数据的分块填补算法研究被引量：6