基于分类的加速EM缺失数据填充算法被引量：1

Accelerating EM Missing Data Filling Algorithm Based on the Clustering

下载PDF

导出

摘要在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根据挖掘目的的不同选择不同的特性,然后利用增量式EM(IEM)算法按E步M步迭代反复求精,快速有效地得出填充缺失数据的最优值;该算法大大加快了收敛速度,加强了聚类的稳定性,数据填充效果显著。 In the whole process of data mining, the EM algorithm is widely applied to dealing with incomplete data for its numerical stability, simplicity of implementation, reliable global convergence. the main disadvantage of the EM is slow convergence speed, the algorithm is highly dependent on the initial value of the option, In this paper, the clustering results use kNN Classification as the initial scope of EM algorithm, according to the different choice of different characteristics of mining purposes, then use incremental EM algorithm （IEM） step by step EM iterative refinement repeatedly, it obtains the optimal value of filling missing data quickly and efficiently, it is concluded that the optimal value of filling missing data experimental results show that the algorithm of this paper to speed up the convergence rate, strengthened the stability of clustering, data filling effect is remarkable.

作者孙华艳李业丽字云飞韩旭管欣鑫周楚风 SUN Huayan;LI Yeli;ZI Yunfei;HAN Xu;GUAN Xinxin;ZHOU Chufeng(School of Information Engineering,Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区北京印刷学院信息工程学院

出处《北京印刷学院学报》 2018年第9期98-102,共5页 Journal of Beijing Institute of Graphic Communication

基金北京市科技创新服务能力协调创新项目(PXM2016_014223_000025)

关键词 KNN分类 EM算法增量式EM算法收敛速度稳定聚类缺失数据填充 KNN classification EM algoritbm incremental EM algoritbm convergence speed stableclustering missing data filling

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1邹薇,王会进.基于朴素贝叶斯的EM缺失数据填充算法[J].微型机与应用,2011,30(16):75-77. 被引量：7
2刘星毅,檀大耀,曾春华,韦小铃.基于马氏距离的缺失数据填充算法[J].微计算机信息,2010,26(9):225-226. 被引量：6
3YANG HongLei,PENG JunHuan,XIA BaiRu,ZHANG DingXuan.An improved EM algorithm for remote sensing classification[J].Chinese Science Bulletin,2013,58(9):1060-1071. 被引量：5
4冷泳林,陈志奎,张清辰,鲁富宇.不完整大数据的分布式聚类填充算法[J].计算机工程,2015,41(5):19-25. 被引量：16
5李宏,阿玛尼,李平,吴敏.基于EM和贝叶斯网络的丢失数据填充算法[J].计算机工程与应用,2010,46(5):123-125. 被引量：21
6武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
7王戈,于宏毅,沈智翔,胡赟鹏.一种基于EM算法的快速收敛参数估计方法[J].吉林大学学报（工学版）,2013,43(2):532-537. 被引量：14
8金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
9苏嘉庚.EM算法下的快速收敛参数预估策略[J].电子技术与软件工程,2017(1):173-173. 被引量：3

二级参考文献60

1彭红毅,朱思铭,蒋春福.数据挖掘中基于ICA的缺失数据值的估计[J].计算机科学,2005,32(12):203-205. 被引量：9
2Vassilis Athitsos, et al., (2008),Nearest Neighbor Retrieval Using Distance-Based Hashing[C].ICDE,327-336.
3Cover, T.M. and Hart, P.E.(1967). Nearest neighbor pattern classification [M]. IEEE Transactions on Information Theory, Vol. 13, No. 1, pp. 21 - 27.
4Dempster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, series B, Vot. 39, pp. 1 - 38.
5Han J and Kamber, M., (2006), Data Mining: Concepts and Techniques (2nd edition)[M].Morgan Kaufmann publications.2006.
6Little R. and Rubin D. (2002)..Statistical Analysis with Missing Data[M]. Wiley, 2002.
7Lakshminarayan K,Harp S A,Samad T.Imputation of missing data in industrial databases[J].Applied Intelligence,1999,11:259-275.
8Li K H.Imputation using Markov chains[J].Journal of Statisticalt Comput Simul,1988,30:57-79.
9Little R J,Rubin D B.Statistical analysis with missing data[M].[S.l] :John Wiley and Sons,1987.
10Gustavo E A,Batista P A,Monard M C.An analysis of four missing data treatment methods for supervised learning[J].Applied Artificial Intelligence,2003,17(5/6):519-533.

共引文献121

1李雪莲.基于EM-PLS的加权朴素贝叶斯分类算法[J].重庆工商大学学报（自然科学版）,2011,28(1):22-25. 被引量：1
2付丹丹.贝叶斯网络学习算法研究[J].大庆师范学院学报,2011,31(3):36-38. 被引量：3
3沐守宽,周伟.缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法[J].心理科学进展,2011,19(7):1083-1090. 被引量：15
4陈志奎,杨英达,张清辰,刘旸.基于属性约简的物联网不完全数据填充算法[J].计算机工程与设计,2013,34(2):418-422. 被引量：5
5林超,崔良中,周钢.基于分类矩阵ID3决策树的数据预处理技术研究[J].舰船电子工程,2013,33(4):28-31. 被引量：1
6胡爱娜,蔡晓艳.基于MapReduce的分布式期望最大化算法[J].科学技术与工程,2013,21(16):4603-4606. 被引量：4
7陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10
8赵一丁,李志民,王洪利,刘卫光,楚纪正.基于数据挖掘的仿真模型参数修正[J].计算机应用,2013,33(10):2827-2831.
9宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31
10吕虹.基于EM-BN算法的网络调查问卷分析研究[J].贵州师范学院学报,2013,29(9):22-25. 被引量：1

同被引文献23

1周华坤,赵新全,周立,刘伟,李英年,唐艳鸿.青藏高原高寒草甸的植被退化与土壤退化特征研究[J].草业学报,2005,14(3):31-40. 被引量：269
2尚占环,龙瑞军,马玉寿.江河源区“黑土滩”退化草地特征、危害及治理思路探讨[J].中国草地学报,2006,28(1):69-74. 被引量：60
3温璐,董世魁,朱磊,施建军,刘德梅,王彦龙,马玉寿.环境因子和干扰强度对高寒草甸植物多样性空间分异的影响[J].生态学报,2011,31(7):1844-1854. 被引量：44
4孙东永,王义民,黄强,张莉,肖燕.均方根误差最小准则的水库群典型年选取[J].西安理工大学学报,2011,27(3):275-279. 被引量：6
5熊秋芬,黄玫,熊敏诠,胡江林.基于国家气象观测站逐日降水格点数据的交叉检验误差分析[J].高原气象,2011,30(6):1615-1625. 被引量：28
6孙鸿烈,郑度,姚檀栋,张镱锂.青藏高原国家生态安全屏障保护与建设[J].地理学报,2012,67(1):3-12. 被引量：495
7刘纪远,邵全琴,樊江文.三江源生态工程的生态成效评估与启示[J].自然杂志,2013,35(1):40-46. 被引量：31
8徐翠,张林波,杜加强,郭杨,吴志丰,徐延达,李芬,王风玉.三江源区高寒草甸退化对土壤水源涵养功能的影响[J].生态学报,2013,33(8):2388-2399. 被引量：68
9刘宪锋,任志远,林志慧,刘焱序,张东海.2000-2011年三江源区植被覆盖时空变化特征[J].地理学报,2013,68(7):897-908. 被引量：153
10邵景安,邵全琴,芦清水,黄麟,匡文慧.农牧民响应政府主导生态建设工程的外部不经济性——以江西山江湖和青海三江源为例[J].自然资源学报,2013,28(11):1879-1890. 被引量：1

引证文献1

1李亮丹,晔沙,谢夏,胡月明,谢健文,周悟,游小敏.基于Hive的高寒草地海量数据高效分析系统设计研究[J].农业资源与环境学报,2021,38(6):1152-1163. 被引量：1

二级引证文献1

1李寒阳.基于数据挖掘技术的海量企业运营数据智能分析系统设计[J].信息与电脑,2022,34(18):112-114. 被引量：2

1王玮,苏琦,周伟,刘荫,张宾.不同类别非完整大数据中缺失数据填充算法[J].科学技术与工程,2018,18(8):91-96. 被引量：5
2赵星,王逊,黄树成.基于距离最大化和缺失数据聚类的填充算法[J].电子设计工程,2018,26(1):20-24. 被引量：9
3崔治国,曹勇,武根峰,刘辉,仇志飞,陈传玮.基于机器学习算法的建筑能耗监测数据预处理技术研究[J].建筑科学,2018,34(2):94-99. 被引量：20
4曲冬梅.大数据背景下信息处理技术探索[J].现代信息科技,2018,2(3):18-19. 被引量：2
5郭新东,杨华,孙瑜.基于AOP的数据填充在教学诊改系统中的应用[J].现代电子技术,2018,41(14):150-153. 被引量：2
6郝利栋,赵慧,杨培丽.基于多路融合卷积神经网络的网购商品情感分类[J].东华大学学报（自然科学版）,2018,44(4):555-559. 被引量：1
7乔永卫,张宇翔,肖春景.基于会话时序相似性的矩阵分解数据填充[J].计算机应用,2018,38(8):2236-2242. 被引量：1
8王政,郜鲁涛,齐伟恒,彭伟,彭琳.基于FP＿Growth和Slope＿one的图书推荐[J].计算机技术与发展,2018,28(9):83-87. 被引量：1
9王棚飞,王勇,刘梦娇,张耀华,李果.重庆市大气环境质量评价及对策研究[J].科技通报,2018,0(7):267-273. 被引量：7
10王永贵,宋真真,肖成龙.基于改进聚类和矩阵分解的协同过滤推荐算法[J].计算机应用,2018,38(4):1001-1006. 被引量：27

北京印刷学院学报

2018年第9期

浏览历史

内容加载中请稍等...

基于分类的加速EM缺失数据填充算法被引量：1

参考文献9

二级参考文献60

共引文献121

同被引文献23

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分类的加速EM缺失数据填充算法 被引量：1

参考文献9

二级参考文献60

共引文献121

同被引文献23

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分类的加速EM缺失数据填充算法被引量：1