基于泛化中心聚类的不完备数据集填补方法被引量：11

Missing Data Imputation Approach Based on Generalized Centroids Clustering Algorithm

下载PDF

导出

摘要随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现. With the development of information technology,cloud technology,internet and social network,The scale of the data has grown explosively.Althouth mass data can provide wealthy information,and at the same time,how to preprocess the information efficiently has become a research focus.Among them,preprocessing the missing data is an important challenge in the pretreatment,Mosttraditional filling method for missing data only consider filling incomplete centralized data in the completely missing cases.However,due to artificial or mechanical and other reasons in mass data,this will cause a certain degree of damage to the data.Some data will be completely missing,and some missing is only partially,the traditional filling method didn＇t divide the data in different degrees of damage.They all analysis completely missing ,but ignore the influence of partially missing data.In this paper,a kind of method based on generalized center-clustering fill （GCF） has been proposed,thispaperadoptsthe idea of generalization center clustering to cluster the data,and fill the missing databetween the random damage data and clustering results in order to improve the accuracy of the dataset filled.Experimental results show that the proposed GCF strategy in the accuracy of filling missing datasets that has different degree have good performance.

作者王妍王凤桐王俊陆宋宝燕石展

机构地区辽宁大学信息学院东北大学计算机科学与工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2017年第9期2017-2021,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61472169 61472072)资助国家科技支撑计划项目(2012BAF13B08)资助国家"九七三"重点基础研究发展计划前期研究专项项目(2014CB360509)资助辽宁省科学事业公益研究基金项目(2015003003)资助

关键词海量数据不完备数据集泛化中心聚类数据损坏度 mass data incomplete data generalized centroids clustering stochastic damage

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1冷泳林,陈志奎,张清辰,鲁富宇.不完整大数据的分布式聚类填充算法[J].计算机工程,2015,41(5):19-25. 被引量：16
2代明,钟才明.基于K-means稳定划分和贝叶斯连接性的聚类[J].小型微型计算机系统,2016,37(4):763-767. 被引量：2
3白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
4武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
5刘富春.基于限制容差关系的集对粗糙集模型[J].计算机科学,2005,32(6):124-128. 被引量：8
6亢红领,李明楚,焦栋,郭成,徐淑珍.一种基于属性相关度的子空间聚类算法[J].小型微型计算机系统,2015,36(2):211-214. 被引量：4
7张耀,陈培翠,张翠仙,罗天娥,刘桂芬.二分类数据缺失多重填补分析及应用[J].中国卫生统计,2014,31(3):370-373. 被引量：4
8金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
9李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：258
10王清毅,蔡智,邹翔,蔡庆生.部分数据缺失环境下的知识发现方法[J].软件学报,2001,12(10):1516-1524. 被引量：18

二级参考文献227

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2Han Jiawei,Kamber M. Data Mining:Concepts and Techniques. San Francisco, US: Morgan Kaufmann, 2001
3MacQueen J B. Some methods for classification and analysis of multivariate observation//Proceeding 5^th Berkley Symposium, on Mathematical Statistics and Probability. 1967, I:281-297. University of California Press, 1967, Xvii, 666
4Huang Zhexue. Clustering Large Data Sets with Mixed Numeric and Categorical Values//PAKDD'97. Singapore, World Scientific, 1997:21-35
5Huang Zhexue. Extensions to the k Means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998,2 : 283-304
6Michael K, Ng M, Li Junjie, et al. On the impact of dissimilarity measure in K-Modes clustering algorithm. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007,29 (3) : 503-507
7Li Cen, Biswas Gautam. Unsupervised learning with mixed numeric and nominal data. IEEE Transactions on Knowledge and Data Engineering, 2002,14 :673-690
8Hsu C C, Chen Chinlong, Su Yuwei. Hierarchical clustering of mixed data based on distance hierarchy. Information Sciences, 2007 :4474-4492
9Hsu C C. Generalizing self-organizing map for categorical data. IEEE Transaction on Neural Network, 2006,17 (2) : 294-304
10Ganti V, Ramakrishnanz J G R. CACTUS, clustering categorical data using summaries//Proceedings of the 5th International Conference on Knowledge Discovery and Data Mining. San Diego:ACM Press, 1999 : 73-83

共引文献393

1张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：7
2杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：1
3谢川,倪世宏,张宗麟.基于支持向量机的缺失飞行参数预测方法[J].弹箭与制导学报,2004,24(S2):350-352. 被引量：1
4谢川,倪世宏,张宗麟.一种缺失飞行参数预处理的新方法[J].计算机仿真,2005,22(4):27-31. 被引量：9
5刘富春.基于集对分析方法的不完备信息系统的扩充粗糙集模型[J].计算机科学,2006,33(2):169-172. 被引量：6
6刘富春.变集对联系度的扩充粗糙集模型及其属性约简[J].计算机科学,2006,33(3):185-187. 被引量：7
7印鉴,周祥福,杨敏.不完整数据库中的数据挖掘[J].计算机工程,2006,32(12):34-36. 被引量：3
8张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
9覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
10张海东,舒兰.限制容差关系下的集对变精度粗糙集模型[J].模糊系统与数学,2007,21(5):125-130. 被引量：5

同被引文献89

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：17
2金玲玲,王喜凤,朱紫焱.不完备信息系统的增量式约简算法[J].辽宁工程技术大学学报（自然科学版）,2012,31(2):284-288. 被引量：2
3李武翰,魏东兴,王建国,刘军民.基于BP网络和多抽样率处理的缺失音频信号恢复方法[J].大连理工大学学报,2004,44(5):729-732. 被引量：2
4冯征,阎敏,张智峰.一种基于PSO的模糊聚类算法[J].计算机工程与应用,2006,42(27):150-151. 被引量：9
5许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
6张建民,姚亮,胡学钢.一种面向数据缺失问题的K-means改进算法[J].合肥工业大学学报（自然科学版）,2008,31(9):1455-1457. 被引量：5
7滕书华,周石琳,孙即祥,李智勇.基于条件熵的不完备信息系统属性约简算法[J].国防科技大学学报,2010,32(1):90-94. 被引量：22
8杨霁琳,秦克云,裴峥.不完备决策表中基于相似关系的属性约简[J].计算机工程,2010,36(20):10-12. 被引量：10
9李鑫,张继福,蔡江辉.一种基于大密度区域的模糊聚类算法[J].小型微型计算机系统,2012,33(6):1310-1315. 被引量：11
10武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62

引证文献11

1焦媛.云计算下多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(2):262-265. 被引量：1
2唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
3杨武俊.模块化神经网络容差模拟电路故障检测[J].计算机测量与控制,2019,27(1):32-35.
4王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
5王光琼.不完备系统中一种增量式属性约简算法[J].计算机与现代化,2019,0(8):69-73.
6王成,崔紫薇,杜梓林,高悦尔.基于DBSCAN算法和多源数据的缺失公交到站数据修补[J].计算机应用,2019,39(11):3184-3190. 被引量：4
7王志刚,田立勤,毛亚琼.一种基于相关系数加权的离散型数据填补算法与分析[J].现代电子技术,2020,43(9):109-112. 被引量：1
8林枫,蔡延光,蔡颢,张丽.基于布谷鸟算法优化K_means聚类的缺失数据填充算法[J].自动化与信息工程,2020,41(6):13-17. 被引量：4
9辛俊龙,葛静,朱斯杨,周子玉.基于偏最小二乘回归的大坝安全监测数据缺失迭代修补方法研究[J].水利规划与设计,2021(11):100-104. 被引量：4
10朱峥瑜,宋燕.一种基于多重信息的不完全数据的模糊C均值聚类算法[J].小型微型计算机系统,2021,42(12):2545-2552. 被引量：3

二级引证文献26

1刘彤,倪维健,孙宇健,曾庆田.基于深度迁移学习的业务流程实例剩余执行时间预测方法[J].数据分析与知识发现,2020,4(2):134-142. 被引量：2
2王霄,陈超,沈优,郭淮,钱少璇.基于GIS-Q技术的动态大坝安全评价研究及应用[J].水利水电技术（中英文）,2022,53(S01):372-375.
3李国和,杨绍伟,吴卫江,郑艺峰.基于聚类的连续型数据缺失值充填方法[J].计算机工程,2019,45(9):32-39. 被引量：11
4高峥,徐震.基于多元回归KNN的油田缺失数据填充方法[J].信息技术,2020,44(4):79-83. 被引量：9
5倪维健,孙宇健,刘彤,曾庆田,刘聪.基于注意力双向循环神经网络的业务流程剩余时间预测方法[J].计算机集成制造系统,2020,26(6):1564-1572. 被引量：14
6周琦,李明.基于频谱信息的网络多缺陷干扰抑制系统设计[J].现代电子技术,2020,43(18):89-91. 被引量：1
7金秋,林馥.定向网络中隐藏可逆数据的分层追踪算法[J].计算机仿真,2020,37(10):226-229.
8赵洪山,寿佩瑶,马利波.低压台区缺失数据的张量补全方法[J].中国电机工程学报,2020,40(22):7328-7336. 被引量：25
9蒋庆朝,陈孟婕.基于改进广义回归神经网络的渔船流量预测[J].现代计算机,2020,26(33):25-29.
10孟现锋,梁松柏,徐刚.移动网络投诉热点区域智能识别方法与应用[J].河南科学,2021,39(8):1211-1216. 被引量：1

1方小妹,葛璞,谢超,陈世豪.校园网论坛评论的人类动力学分析研究[J].智能计算机与应用,2017,7(2):90-93. 被引量：2
2郑丽娟,蒋良卫.面向移动网络的海量信息压缩管理算法设计与实现[J].中国新通信,2017,19(17):26-26.
3姚晟,徐风,赵鹏,刘政怡,陈菊.基于改进邻域粒的模糊熵特征选择算法[J].南京大学学报（自然科学版）,2017,53(4):802-814. 被引量：6
4康晓霞.应对局域网信息安全问题的几点思考[J].电子世界,2017,0(17):89-89.

小型微型计算机系统

2017年第9期

浏览历史

内容加载中请稍等...

基于泛化中心聚类的不完备数据集填补方法被引量：11

参考文献11

二级参考文献227

共引文献393

同被引文献89

引证文献11

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于泛化中心聚类的不完备数据集填补方法 被引量：11

参考文献11

二级参考文献227

共引文献393

同被引文献89

引证文献11

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于泛化中心聚类的不完备数据集填补方法被引量：11