基于分布式减法聚类的不完整数据填充算法被引量：10

Incomplete Data Imputation Algorithm Based on Distributed Subtractive Clustering

下载PDF

导出

摘要不完整数据填充是数据预处理领域重要研究课题.传统数据填充算法时间复杂度高,算法不具有分布式处理特性,不满足大数据环境下对数据快速处理的要求.提出一种基于分布式减法聚类的不完整数据填充算法,算法首先利用改进的减法聚类算法对整个数据集进行聚类.为了提高聚类算法的效率,利用云计算技术对聚类算法进行优化,实现基于多级MapReduce的分布式减法聚类算法.然后根据聚类结果和加权距离对缺失数据值进行填充,在保证数据填充精度的同时大幅度降低了填充过程的处理时间.实验结果表明,本文提出的方法能够对大数据进行快速聚类,同时有效保证缺失数据的填充精度. Incomplete data imputation is an important issue in data analysis and preprocessing. Existing incomplete data imputation algorithms＇ time complexity is pretty high,and they don＇t have the characteristic of distributed processing. Therefore,they are not suitable for the processing requirement in big data environment. The paper proposes a novel algorithm based on distributed subtractive clustering for imputing incomplete data,which clusters incomplete data directly by designing a newsimilarity metrics,and then cloud computing technology is used to improve the clustering efficiency by deriving M uti-M apReduce-based distributed clustering algorithm.Then the data objects in the same cluster with the target and the weighted distance are utilized to fill in the missing values. The algorithm of this paper significantly reduces the processing time of filling process. M eanwhile,it ensures the filling accuracy of incomplete data imputation. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and ensure the accuracy for filling in missing data effectively.

作者赵亮陈志奎张清辰

机构地区大连理工大学软件学院

出处《小型微型计算机系统》 CSCD 北大核心 2015年第7期1409-1414,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(U1301253)资助辽宁省自然科学基金项目(201202032)资助

关键词大数据缺失值填充减法聚类 MAPREDUCE模型 big data data imputation subtractive clustering M apReduce

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
2蒋雯倩,李欣然,钱军.改进FCM算法及其在电力负荷坏数据处理的应用[J].电力系统及其自动化学报,2011,23(5):1-5. 被引量：31

二级参考文献95

1陈柔伊,张尧,武志刚,陈泽淮.改进的模糊聚类算法在负荷预测中的应用[J].电力系统及其自动化学报,2005,17(3):73-77. 被引量：26
2李培强,李欣然,陈辉华,唐外文.基于模糊聚类的电力负荷特性的分类与综合[J].中国电机工程学报,2005,25(24):73-78. 被引量：131
3叶锋,何桦,顾全,张高峰.EMS中负荷预测不良数据的辨识与修正[J].电力系统自动化,2006,30(15):85-88. 被引量：28
4黄梅,贺仁睦,杨少兵.模糊聚类在负荷实测建模中的应用[J].电网技术,2006,30(14):49-52. 被引量：41
5鞠平,陈谦,熊传平,黄丽,方朝雄,陈峰,赵红嘎,戴琦,鄢安河,付红军.基于日负荷曲线的负荷分类和综合建模[J].电力系统自动化,2006,30(16):6-9. 被引量：67
6李培强,李欣然,陈辉华,唐外文.基于减法聚类的模糊神经网络负荷建模[J].电工技术学报,2006,21(9):2-6. 被引量：23
7龙立波,姚建刚,李连结,钱卫华.短期电力负荷预测中的数据处理技术[J].电力需求侧管理,2007,9(1):11-14. 被引量：8
8钱卫华,姚建刚,龙立波,张凯.基于短期相关性和负荷增长的中长期负荷预测[J].电力系统自动化,2007,31(11):59-64. 被引量：28
9Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store. In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010.97-104. [doi: 10.1109/SKG.2010.18].
10Afrati FN, Ullman JD. Optimizing joins in a Map-Reduce environment. In: Manolescu I, Spaecapietra S, Teubner J, Kitsuregawa M, Leger A, Naumann F, Ailamaki A, Ozcan F, eds. Proc. of the EDBT. Lausanne: ACM Press, 2010. 99-110. [doi: 10.1145/ 1739041.1739056].

共引文献415

1郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
2谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
4邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
5原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
6马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
7陈德杰.壮族将军当兵记[J].民族,2000(1):18-20.
8李欣然,徐振华,宋军英,李小菊,李培强,陈辉华.基于功率空间的分时段负荷模型参数在线修正[J].电工技术学报,2012,27(8):147-156. 被引量：7
9樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68. 被引量：238
10于薇.“大数据”背景下的信息处理技术分析与研究[J].数字图书馆论坛,2012(11):6-11. 被引量：3

同被引文献74

1李健波.电子政务的数据安全体系设计策略[J].重庆邮电学院学报（自然科学版）,2004,16(6):124-126. 被引量：7
2韩卫国,王劲峰,胡建军.交通流量数据缺失值的插补方法[J].交通与计算机,2005,23(1):39-42. 被引量：24
3尹慧琳,王磊.D-S证据推理改进方法综述[J].计算机工程与应用,2005,41(27):22-24. 被引量：26
4张建民,姚亮,胡学钢.一种面向数据缺失问题的K-means改进算法[J].合肥工业大学学报（自然科学版）,2008,31(9):1455-1457. 被引量：5
5梁家政,薛质.网络数据归一化处理研究[J].信息安全与通信保密,2010,7(7):47-48. 被引量：14
6吴昊,唐振军.加权壳近邻填充数学模型[J].华南师范大学学报（自然科学版）,2013,45(3):45-48. 被引量：4
7宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报（社会科学版）,2013,33(5):38-43. 被引量：140
8陈龙,张军洋.基于CT股骨有限元模型精确重建及模态分析[J].计算机仿真,2014,31(2):280-283. 被引量：11
9卫波,王晋东,张恒巍,余定坤.基于加权多属性云的服务信任评估方法[J].计算机应用,2014,34(3):678-682. 被引量：4
10马华,胡志刚,张红宇.云计算环境下可信服务的个性化推荐框架[J].小型微型计算机系统,2014,35(5):967-972. 被引量：5

引证文献10

1路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
2金哲凡,俞定国,杨浩,周忠成.高并发环境下网络信息缺失数据修复方法仿真[J].计算机仿真,2017,34(9):374-377. 被引量：7
3张睿萍,马宗梅.大数据网络信息系统缺失优化检测仿真研究[J].计算机仿真,2017,34(9):428-431. 被引量：2
4周向军.基于相似度的多类别不完整云计算网络的聚类填充算法设计[J].辽宁科技大学学报,2017,40(4):298-304. 被引量：1
5陈赣浪,颜飞龙,潘家辉.云计算环境下高复杂度动态数据的增量密度快速聚类算法研究[J].计算机科学,2018,45(2):287-290. 被引量：2
6彭琳.多信道物联网信息传输质量优化仿真[J].计算机仿真,2018,35(3):136-139. 被引量：1
7王成,崔紫薇,杜梓林,高悦尔.基于DBSCAN算法和多源数据的缺失公交到站数据修补[J].计算机应用,2019,39(11):3184-3190. 被引量：4
8冷泳林,孙晓红.不完整数据聚类算法研究[J].计算机技术与发展,2020,30(8):61-65.
9胡雪,彭敦陆.张量表达下的多模态交通缺失数据补全算法[J].小型微型计算机系统,2021,42(1):105-110. 被引量：1
10马宗方,马祥双,宋琳,罗婵.异常信息的智能分类算法研究[J].计算机测量与控制,2021,29(10):164-169.

二级引证文献20

1王飞,辛海松,胡丽娟,陈佳仪.配电网数据质量提升与数据修复系统开发研究[J].电网与清洁能源,2019,35(3):58-61. 被引量：11
2吴治刚.稳态网络海量可公开数据完整性高效检测仿真[J].计算机仿真,2019,36(1):449-452. 被引量：4
3史勤,陈文莉.灸法改善化疗后骨髓抑制动物的实验研究进展[J].江西中医药,2015,46(2):63-64. 被引量：2
4吴永飞,汪江亮,何前松,李开会,闵潇,林宏新.五加双参片对辐射损伤小鼠血清G-CSF水平的影响[J].河南中医,2016,36(1):41-43. 被引量：1
5唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
6王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
7司梦.手持式移动学习终端故障模块自修复系统设计[J].电子设计工程,2019,27(15):8-11.
8陈智勇,刘昊.基于信息素算法的校园物联网多路传输优化[J].系统仿真学报,2019,31(8):1719-1726. 被引量：5
9李芳,曹淑宽.电子设备印刷线路板高速信号传输完整性仿真[J].计算机仿真,2019,36(8):178-181. 被引量：2
10申燕萍,顾苏杭,郑丽霞.基于云计算平台的仿生优化聚类数据挖掘算法[J].计算机科学,2019,46(11):247-250. 被引量：25

1刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
2张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
3覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
4苏毅娟,孙可,邓振云,尹科军.基于LPP和l_(2,1)的KNN填充算法[J].广西师范大学学报（自然科学版）,2015,33(4):55-62.
5金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
6朱曼龙.MkNNI:基于相互最近邻的缺失值填充新方法[J].现代计算机,2012,18(21):8-11. 被引量：3
7徐宇明,陈诚,熊赟,朱扬勇.APT-KNN:一种面向分类问题的高效缺失值填充算法[J].计算机应用与软件,2011,28(4):135-139. 被引量：10
8张志军,丁德馨.ANFIS训练参数设置研究[J].南华大学学报（自然科学版）,2008,22(2):1-5. 被引量：8
9卢棪,刘应安.基于缺失值迭代预测填充的协同过滤推荐算法[J].计算机与数字工程,2016(6):992-996. 被引量：4
10刘莹,景波,黄兵.基于回收技术的关联规则研究[J].计算机工程,2008,34(13):56-57.

小型微型计算机系统

2015年第7期

浏览历史

内容加载中请稍等...

基于分布式减法聚类的不完整数据填充算法被引量：10

参考文献2

二级参考文献95

共引文献415

同被引文献74

引证文献10

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于分布式减法聚类的不完整数据填充算法 被引量：10

参考文献2

二级参考文献95

共引文献415

同被引文献74

引证文献10

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于分布式减法聚类的不完整数据填充算法被引量：10