Hadoop平台上Apriori算法并行化研究与实现被引量：26

Research and Implementation of Parallel Apriori Algorithm on Hadoop Platform

下载PDF

导出

摘要分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。 The traditional association rule Apriori algorithm and its defect are analyzed,on account of the serial algorithm are lower efficiency,high time complexity and the traditional parallel computing can not deal with node failure,it is also difficult to deal with issues such as load balancing,the parallel association rule algorithm based on the Hadoop platform is proposed,the traditional association rule Apriori algorithm has been improved and the implementation process of the improved algorithm based on the MapReduce programming model is given;the improved algorithm is tested on a single computer and clusters,experimental results show that the improved algorithm has a higher efficiency,better speedup and portability.

作者郝晓飞谭跃生王静宇

机构地区内蒙古科技大学信息工程学院内蒙古科技大学网络中心

出处《计算机与现代化》 2013年第3期1-4,8,共5页 Computer and Modernization

基金国家自然科学基金资助项目(61163025) 内蒙古自然科学基金资助项目(2012MS0912) 教育部春晖计划项目(Z2009-1-01044)

关键词 HADOOP 关联规则算法并行计算 APRIORI Hadoop association rule algorithm parallel computing Apriori

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1JiaweiHart,MichelineKamber.数据挖掘概念与技术[M].范明,孟小峰,等译.北京:机械工业出版社,2007:184-212.
2王润华.基于Hadoop集群的分布式日志分析系统研究[J].科技信息,2009(15):60-60. 被引量：9
3Dean J, Ghemawat S. MapReduce: Simplified data pro- cessing on larger clusters [ J ]. Communications of the ACM, 2005,51(1) :107-113.
4Bhandarkar M. MapReduce programming with apache Ha- doop[ C ]//2010 IEEE International Symposium on Paral- lel & Distributed Processing. 2010:1.
5TomWhite.Hadoop权威指南[M].周敏奇,王晓玲,译.北京:清华大学出版社,2011.
6Yang Lai, Shi ZhongZhi. An efficient data ming framework on Hadoop using Java persistence API [ C]// 2010 10th IEEE International Conference on Computer and Informa- tion Technoogy. 2010:203-209.
7Wegener D, Mock M, Adranale D, et al. Toolkits basedhigh-performance data mining of large data on MapReduce clusters [ C ]//IEEE International Conference on Data Min- ing Workshops. 2009:296-301.
8江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21

二级参考文献14

1DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [ J] // Communications of the ACM: 50th anniversary issue, 2008, 51(1): 107-113.
2Apache Hadoop. Hadoop[ EB/OL]. [2011-03- 15]. http://hadoop. apache, org.
3CHU C-T, KIM S K, LIN Y-A, et al. Map-reduce for machine learning on multicore[ C]// NIPS 2006: Proceedings of Neural Information Processing Systems Conference. Cambridge, MA: MIT, 2006:281-288.
4JASON D, LAWRENCE S, JAIME T, et al. Tracking the poor assumptions of Naive Bayes text classifiers[ C]// ICML 2003: Proceedings of the Twenty International Conference on Machine Learning. Washington, DC: [s. n. ], 2003:616-693.
5中国科学院计算技术研究所.ICTCLAS汉语分词系统【EB/OL】.[2011-02—16】.http://ictclas.org/.
6University of Waikato. Weka 3: data mining software in Java [ EB/ OL]. [2011 -03 - 15]. http://www, cs. waikato, ac. nz/ml/weka/.
7WEGENER D, MOCK M, ADRANALE D, et al. Toolkit-based high-performance data mining of large data on MapReduce clusters [ C]// ICDM: IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2009:296 -301.
8MIT Computer Science and Artificial Intelligence Laboratory. Twenty news groups dataset[ EB/OL]. (2008 -01 - 14) [2011 -02 - 18]. http://people, csail, mit. edu/jrennie/20Newsgroups/.
9搜狗实验室.互联网语料库【EB/OL】.【2011—02—17].www.sogou.com/labs/dl/t.html.
10陈慧萍,林莉莉,王建东,苗新蕊.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008,44(19):76-79. 被引量：35

共引文献41

1胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,6(8):6163-6164. 被引量：17
2杨振东,王晋川,郑冀,刘科.面向云计算的油料供应管理系统构架[J].重庆理工大学学报（自然科学）,2011,25(9):81-86. 被引量：2
3孙福权,张达伟,程勖,刘超.基于Hadoop企业私有云存储平台的构建[J].辽宁工程技术大学学报（自然科学版）,2011,30(6):913-916. 被引量：33
4王荣.ID3算法在成绩分析中的应用研究[J].信息技术,2012,36(5):94-96.
5郭晓淳,马冬梅.点击流数据仓库中基于事件驱动的星型ER模型[J].信息技术,2012,36(6):96-99. 被引量：1
6李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
7丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
8曹泽文,周姚.基于MapReduce的JP算法设计与实现[J].计算机工程,2012,38(24):14-16. 被引量：6
9曾青华,袁家斌.基于MapReduce和GPU双重并行计算的云计算模型[J].计算机与数字工程,2013,41(3):333-336. 被引量：4
10樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9

同被引文献260

1丁丽,孙高峰.对Apriori算法的研究及改进[J].河北北方学院学报（自然科学版）,2013,29(2):16-21. 被引量：1
2朱敏,程佳,柏文阳.一种基于HBase的RDF数据存储模型[J].计算机研究与发展,2013,50(S1):23-31. 被引量：8
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
4许淑华,齐鸣鸣.基于Web Service的工作流管理系统设计[J].计算机与数字工程,2006,34(11):141-143. 被引量：3
5陈晓云,胡运发.基于自适应加权的文本关联分类[J].小型微型计算机系统,2007,28(1):116-121. 被引量：6
6何元.基于云计算的海量数据挖掘分类算法研究[D].成都:电子科技大学,2011.
7符丽锦,覃华,邓海,等.一种改进的Apriori算法[J].广西科技学院学报,2013,29(1):123-127.
8Wegener D, Mock M, Adranale D. Toolkit based high-performance data mining of large data on Ma- pReduce clusters[C]//IEEE International Confer- ence on Data Mining-ICDM. Washington: IEEE, 2009.
9S Chakrabarti. Data mining for hypertext: a tutorial survey[J]. SIGKDD Exploration, 2009,1 (3) : 4-12.
10Zou Quan, Li Xu-Bin, Jiang Wen Rui. Survey of MapReduce frame operation in bioinformatics[J]. Briefings in bioinformatics, 2013,15(6) : 189-199.

引证文献26

1李晓飞.云计算环境下Apriori算法的MapReduce并行化[J].长春工业大学学报,2013,34(6):736-740. 被引量：3
2顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
3樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9
4臧伟,曹宝香.一种引入索引结构的Apriori并行化改进算法[J].电子技术（上海）,2014(6):43-47. 被引量：2
5周国军.一种基于MapReduce的关联规则挖掘算法[J].玉林师范学院学报,2014,35(5):128-134. 被引量：1
6陈小健,宋承继.数据挖掘技术在科研项目量化与评价中的应用[J].电子设计工程,2015,23(12):37-40. 被引量：4
7熊富蕊,桑应朋.基于MapReduce的隐私保护的关联规则挖掘算法的研究[J].智能计算机与应用,2015,5(6):42-45. 被引量：2
8于兆良,张文涛,葛慧,艾伟,孙运乾.基于Hadoop平台的日志分析模型[J].计算机工程与设计,2016,37(2):338-344. 被引量：14
9宁勇,李冰.基于云计算与医疗大数据的Apriori算法优化[J].电脑编程技巧与维护,2016(21):61-61.
10李庆鹏,张龙军,耿新元.I-Apriori:一种基于Spark平台的改进Apriori算法[J].科学技术与工程,2017,17(27):243-248. 被引量：8

二级引证文献246

1李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：2
2周坤,李小松.人工智能与计算智能在物联网方面的应用探索[J].计算机产品与流通,2020,9(11):152-152. 被引量：5
3邱莉萍,鞠海军,龚晓敏,邓拓,刘林玉.分布式计算框架的大数据机器学习探析[J].计算机产品与流通,2020(10):179-179.
4马笑凡,崔伟锋,潘玉颖,郭泉滢,张俊萍.基于真实世界的冠心病支架术后中成药运用规律研究[J].辽宁中医杂志,2022,49(9):17-24. 被引量：1
5吕晓芳,白燕青.基于改进Apriori算法的船舶通信入侵检测方法分析[J].舰船科学技术,2019,41(20):106-108. 被引量：5
6梁复台,李宏权,郑茂,方伟臻.空中目标活动规律挖掘分析方法研究[J].飞航导弹,2019,0(12):68-72. 被引量：3
7郭恒川.人工智能中的机器学习技术应用[J].电子技术（上海）,2021,50(10):294-296. 被引量：2
8胡常礼,邵剑飞.基于分布式计算框架的机器学习系统分析[J].电视技术,2021,45(11):115-118.
9魏巍巍.空间数据挖掘的方法进展及其问题探究[J].产业与科技论坛,2020(8):35-36.
10杨德建.大数据分析中的计算智能研究现状与展望[J].新一代信息技术,2022,5(7):120-122.

1潘燕燕.一种新的基于MapReduce的并行关联规则算法[J].重庆科技学院学报（自然科学版）,2015,17(3):88-91. 被引量：1
2马洁.云计算环境下关联规则数据挖掘算法研究[J].重庆工商大学学报（自然科学版）,2012,29(11):36-39. 被引量：4
3王丽,孙立财.基于1553B总线传感器测试系统的设计实现[J].光电技术应用,2008,23(3):65-68.
4余楚礼,肖迎元,尹波.一种基于Hadoop的并行关联规则算法[J].天津理工大学学报,2011,27(1):25-28. 被引量：13
5吴建章,韩立新,曾晓勤.一种基于多核微机的闭频繁项集挖掘算法[J].计算机应用与软件,2013,30(3):44-46. 被引量：2
6樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9
7邢殿勇,吴绍春,王炜.并行关联规则算法在地震相关性预报中的应用[J].计算机应用研究,2005,22(10):175-177. 被引量：2
8张传升,萧蕴诗,吴继伟.一种新的基于并行蚁群算法的旅行商问题求解方法的研究[J].微型电脑应用,2009,25(2):59-61. 被引量：1
9王晓华.一种新型的Hadoop本地化测试模型[J].赤峰学院学报（自然科学版）,2013,29(19):20-21.
10熊富蕊,桑应朋.基于MapReduce的隐私保护的关联规则挖掘算法的研究[J].智能计算机与应用,2015,5(6):42-45. 被引量：2

计算机与现代化

2013年第3期

浏览历史

内容加载中请稍等...

Hadoop平台上Apriori算法并行化研究与实现被引量：26

参考文献8

二级参考文献14

共引文献41

同被引文献260

引证文献26

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

Hadoop平台上Apriori算法并行化研究与实现 被引量：26

参考文献8

二级参考文献14

共引文献41

同被引文献260

引证文献26

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

Hadoop平台上Apriori算法并行化研究与实现被引量：26