基于Hadoop MapReduce的分布式数据流聚类算法研究被引量：5

Research on Distributed Clustering over Data Stream Using Hadoop MapReduce

下载PDF

导出

摘要随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。 With continuous increase in data stream scale, most existing grid-based clustering algorithms are incompetent to find clusters of arbitrary shape in real-time, and the noise points could not be removed timely. To address these issues, this paper proposes PGDC-Stream, a novel grid-based algorithm for clustering data streams using Hadoop MapReduce. The algorithm adopts a parallel cluste- ring model based on Hadoop Mapreduce to find clusters in real-time. Exploiting a new time-based density threshold function and detecting cycle, the proposed algorithm could remove noise points time- ly. Firstly,PGDC-Stream clusters the data stream using grid density, with the new data records continuously arriving, a novel pruning strategy is used to inspect and remove the noise points periodically. Simultaneously, based on the parallel clustering model, the generated clusters are dynamically adjusted to capture the evolution of the data stream. The experimental results show that PGDC-Stream has superior efficiency, and its clustering quality and scalability are better than CluStream.

作者蔡斌雷任家东朱世伟郭芹

机构地区山东省科学院情报研究所燕山大学信息科学与工程学院济南大学泉城学院

出处《信息工程大学学报》 2014年第4期472-478,共7页 Journal of Information Engineering University

基金国家自然科学基金资助项目(61170190) 国家青年基金资助项目(61004115)

关键词数据挖掘聚类数据流聚类分布式聚类 data mining clustering data stream clustering distributed clustering Hadoop MapReduce

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Ren J D,Hu C Z,Ma R Q.HClu Win:An Algorithm for Clustering Heterogene-ous Data Streams over Sliding Windows[J].International Journal of Innovative Computing,Information and Control,2010,6(5):2171-2179.
2Guha S,Mishra N,Motwani R.Clustering data streams[C]//Proceeding(s) of 41st Annual Symposium on Foundations of Computer Science.2000:359-366.
3O' callaghan L,Mishar N,Meyerson A.Streaming data algorithms for high-quality clustering[C]//Proceeding (s) of 18th Int' 1 Conf,Data Engineering.2002:685-704.
4Aggarwali C,Han J,Wang J,et al.A Framework for Clustering Evolving Data Streams[C]//Proc.of the 29th VLDB Conference.2003:81-92.
5Ntoutsi I,Zimek A,Palpanas T,et al.H-P:Density-based projected clustering over high dimensional data streams[C]//Proc.of SDM 2012.2012:987-998.
6Chen Y,Tu L.Density-Based Clustering for Real-Time Stream Data[C]//Proc.of the Acm Sigkdd 2007 Conference.2007:133-142.
7Kyuseok Shim.MapReduce Algorithms for Big Data Analysis[C]//Proceedings of the VLDB Endowment.2012:2016-2017.
8向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
9Robson L F,Caetano Traina J R,Agma J M.Clustering Very Large Multi-dimensional Datasets with MapReduce[C]//Proceedings of the 17th ACM Sigkdd Conference on Knowledge Discovery and Data Mining.2011:690-698.
10Alina Ene,Sungjin Im,Benjamin Moseley.Fast clustering using MapReduce[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining.2011:681-689.

二级参考文献25

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
3Sebastiani F. Text Categorization[Z]. Encyclopedia of Database Technologies and Applications. 2005..683-687.
4Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TF1DF for Text Categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1997.
5Yang Y. An Evaluation of Statistical Approaches to Text Categorization[J]. Journal of Information Retrieval, 1999, 1 (1/2) :67-88.
6Rocchio J J Jr. Relevance Feedback in Information Retrieval [M]. Salton G, ed. The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc. , Englewood Cliffs, New Jersey, 1971 : 313-323.
7Tzeras K, Hartmann S. Automatic Indexing Based on Bayesian Inference Networks[C]//Proc. 16th ACM Int. SIGIR Conference. 1993: 22-34.
8Masand B, Lino G, Waltz D. Classifying News Stories Using Memory Based Reasoning[C]//15th ACM SIGIR Conference. 1992:59-65.
9Apte C, Damerau F, Weiss S. Automated Learning of Decision Rules for Text Categorization[J]. ACM Trans. on Information Systems, 1994,12(3) : 233-251.
10Joachims T. Text Categorization with Support Vector Machines:Learning with Many Relevant Features [C]//Proc. 10th European Conference on Machine Learning (ECML). 1998:137-142.

共引文献86

1李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
2原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
3张广弟,汪秀兵,胡亚磊.基于hadoop的DEM格网建立研究[J].科技视界,2012(28):95-95. 被引量：1
4王博,陈莉君.Hadoop远程过程调用机制的分析和应用[J].西安邮电学院学报,2012,17(6):74-77. 被引量：10
5赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
6赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
7陈文强,林琛,陈珂,陈锦秀,邹权.基于GraphLab的分布式近邻传播聚类算法[J].山东大学学报（工学版）,2013,43(5):13-18.
8陈湘涛,张超,韩茜.基于Hadoop的并行共享决策树挖掘算法研究[J].计算机科学,2013,40(11):215-221. 被引量：6
9赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14
10田祎,刘爱军,李巍.基于本体的Deep Web查询接口语义扩展[J].荆楚理工学院学报,2013,28(4):33-36.

同被引文献78

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2洪月华.一种具有学习能力的人工蜂群优化算法[J].微电子学与计算机,2015,32(6):154-158. 被引量：2
3黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
4高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
5李晓毅,徐兆棣.关联规则挖掘的算法分析[J].辽宁工程技术大学学报（自然科学版）,2006,25(2):318-320. 被引量：18
6徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5
7王轶,达新宇.分布式并行数据挖掘计算框架及其算法研究[J].微电子学与计算机,2006,23(9):223-225. 被引量：9
8王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
9胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4
10纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2

引证文献5

1唐颖峰,陈世平.一种基于网格块的分布式数据流聚类算法[J].小型微型计算机系统,2016,37(3):488-493. 被引量：4
2李晓峰.云平台中大数据并行聚类方法优化研究仿真[J].计算机仿真,2016,33(7):327-330. 被引量：8
3陈勇.一种基于云计算的大数据关联规律挖掘分析方法[J].无线电工程,2017,47(3):8-11. 被引量：13
4何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：10
5洪月华.分布式大数据的群体行为模式挖掘算法[J].玉林师范学院学报,2019,40(2):145-151.

二级引证文献35

1旷典,付尧明,房丽瑶.大数据挖掘分析在航空发动机状态监控与故障诊断中的应用[J].西安航空学院学报,2017,35(5):42-46. 被引量：16
2郭荣传.关于医学数据库资源特征信息准确查询仿真[J].计算机仿真,2017,34(11):451-454. 被引量：1
3孟维韬,马彦敏,朴春慧.云计算环境下动态数据聚集算法研究[J].计算机测量与控制,2018,26(1):177-180. 被引量：1
4王凯杰.一种基于MapReduce的改进人工蜂群算法[J].软件导刊,2018,17(2):71-73. 被引量：1
5陆明燕,田素诚.大规模网络线路数据流量并行预测方法仿真[J].计算机仿真,2018,35(8):206-209. 被引量：1
6黄奇鹏,卢山.海量关系数据去重处理技术研究与优化[J].计算机与数字工程,2018,46(10):2061-2065. 被引量：2
7梁祥波,夏子厚.基于改进数据挖掘Apriori算法的软件风险管理分析[J].信阳师范学院学报（自然科学版）,2018,31(2):307-311. 被引量：2
8齐小谦,张睿,司召峰,王炳翮,夏丛亮.基于知识图谱的直升机飞行指挥模型研究[J].无线电工程,2019,49(1):6-10. 被引量：8
9孟岩.军事信息综合服务系统研究[J].无线电工程,2019,49(3):179-185.
10王鹏,皮水江.基于大数据的最优招标方案选取算法[J].现代电子技术,2019,42(4):105-108. 被引量：2

1张汇兵.PGD—01可编程图形开发系统的设计[J].组合机床与自动化加工技术,1992(7):45-47.
2你点我配[J].计算机应用文摘,2008(17):114-114.
3赵学武,刘向娇,尹孟洋.数据挖掘常用聚类算法研究[J].电脑知识与技术,2014(6):3710-3712. 被引量：5
4赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(9):83-85. 被引量：29
5张横云.一种优化的基于网格的聚类算法[J].西南民族大学学报（自然科学版）,2009,35(3):635-637.
6于书芳,张汇兵.PGD—01可编程图形开发系统的设计[J].电气自动化,1997(2):54-56.
7杨仕海,傅鹂.便利体和障碍物下基于网格的空间聚类算法[J].计算机应用研究,2010,27(1):117-119. 被引量：2
8钦爽,谢刚,饶钦,郭旭,张文慧.视频中基于LW-PGD和SVM的头肩部检测[J].计算机应用研究,2014,31(3):949-952. 被引量：3
9侯俊峰.一种简单的带式输送机运行检测装置应用研究[J].中国包装工业,2014,22(11X):106-107. 被引量：1
10李怀俊,谢小鹏,肖心远.基于粒子熵的参数自适应变异PSO算法研究[J].计算机工程与应用,2014,50(19):27-31. 被引量：4

信息工程大学学报

2014年第4期

浏览历史

内容加载中请稍等...

基于Hadoop MapReduce的分布式数据流聚类算法研究被引量：5

参考文献11

二级参考文献25

共引文献86

同被引文献78

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Hadoop MapReduce的分布式数据流聚类算法研究 被引量：5

参考文献11

二级参考文献25

共引文献86

同被引文献78

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Hadoop MapReduce的分布式数据流聚类算法研究被引量：5