云计算环境下关联规则挖掘算法的研究被引量：48

Research on Algorithms of Mining Association Rule under Cloud Computing Environment

下载PDF

导出

摘要云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。 Cloud computing provides cheap and efficient solutions of storing and analyzing mass data.It is very important to research the data mining algorithms based on cloud computing from the theoretical view and practical view.In this paper,the algorithms of mining association rules based on cloud computing environment are focused on;First,cloud computing,Hadoop,MapReduce programming model and Apriori algorithm are introduced;Secondly,an improved Apriori algorithm as well as the procedure of the improved Apriori algorithm on MapReduce is designed in order to realize parallel data mining.Finally,a simple example of mining the frequent items is given to reflect the efficiency and utility of the improved algorithm.

作者李玲娟张敏

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2011年第2期43-46,50,共5页 Computer Technology and Development

基金国家重点基础研究发展计划(973计划)资助项目(2011CB302903) 国家自然科学基金(60863001)

关键词云计算数据挖掘 APRIORI MAPREDUCE cloud computing data mining Apriori MapReduce

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1Weiss A. Computing in Clouds[ J]. ACM Networker,2007,11 (4) : 18-25.
2Buyya R, Yeo C S, Venugopal S. Market-Oriented Cloud Computing : Vision, Hype, and Reality for Delivering IT Services as Computing Utilities[ C ]//Proceedings of the 2008 10^th IEEE International Conference on High Performance Computing and Communications. [ s. l. ] : [ s. n. ] ,2008 : 5-13.
3Apache. Hadoop [ EB/OL]. 2006. http://lucene, apache. org/hadoop/.
4Dean J, Ghemawat S. Mapreduce: Simplified data processing on large clusters [ C ]//Proceedings of the 6th Symposium on Operating System Design and Implementation. San Francisco, California, USA : USENIX Association, 2004 : 137-150.
5Wu X, Kumar V, Ghosh R J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems,2008,14 (1) :1-37.
6刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
7Agrawal R, Sharer J C. Parallel Mining of Association Rules [ J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8 ( 6 ) : 962- 969.
8王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机,2009,15(11):22-25. 被引量：26
9Aflori C, Craus M. Grid implementation of the Aprioti algorithm[ J]. Engineering Software,2007, 38( 5): 295-300.

二级参考文献6

1魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41. 被引量：18
2Michael Miller姜进磊,孙瑞志,向勇等译.云计算[M].北京:机械出版社.2009.
3Jeffrey Dean, Sanjay Ghemawat. MapReduce: Symplified Date Processing on Large Clusters[J]. New York:ACM,2008, 51(1):107-113.
4韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
5John Shafer, Rakesh Agrawal,Manish Mehta. SPRINT:A Scalable Parallel Classifier for Data Mining [C].U.S:IBM Almaden Research Center,1996:544-555.
6于蕾,刘大有,高滢,田野.改进SPRINT算法及其在分布式环境下的研究[J].吉林大学学报（理学版）,2008,46(6):1119-1124. 被引量：5

共引文献38

1高翔,侯小静.数据挖掘技术综述[J].牡丹江教育学院学报,2008(6):109-110. 被引量：2
2肖大伟,王国胤,胡峰.一种基于粗糙集理论的快速并行属性约简算法[J].计算机科学,2009,36(3):208-211. 被引量：16
3白旭英,杨有龙.贝叶斯网络诱导的内积空间[J].电子科技,2009,22(7):1-4. 被引量：1
4程苗.基于云计算的经济预测系统研究[J].激光杂志,2011,32(2):37-38. 被引量：6
5朱敏,万剑怡,王明文.基于MR的并行决策树分类算法的设计与实现[J].广西师范大学学报（自然科学版）,2011,29(1):82-86. 被引量：8
6廖志涛.云计算环境下面向数据密集型应用的数据布局探究[J].数字技术与应用,2011,29(8):210-210. 被引量：1
7向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
8戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24
9王晟,赵壁芳.云计算中MapReduce技术研究[J].通信技术,2011,44(12):159-161. 被引量：9
10张雪英,朱少楠,徐希涛.基于Neogeography的中文地名词典维护和服务机制[J].测绘通报,2012(1):56-59. 被引量：2

同被引文献404

1丁丽,孙高峰.对Apriori算法的研究及改进[J].河北北方学院学报（自然科学版）,2013,29(2):16-21. 被引量：1
2章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
3刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
4ZHEN Bin WU Xihong LIU Zhimin CHI Huisheng (Center for Information Science, Peking University Beijing 100871).An enhanced relative spectral processing of speech[J].Chinese Journal of Acoustics,2002,21(1):86-96. 被引量：2
5李明达,王宏志,张佳程,李建中,高宏.PEIF:基于并行机群的大数据实体识别算法[J].计算机研究与发展,2013,50(S1):211-220. 被引量：4
6王静红,王熙照,邵艳华,王伍伶.决策树算法的研究及优化[J].微机发展,2004,14(9):30-32. 被引量：31
7罗建裕,王小英,鲁庭瑞,刘华伟,徐春雷,谢小荣,肖晋宇,李建,吴京涛,王立鼎,胡炯,张涛.基于广域测量技术的电网实时动态监测系统应用[J].电力系统自动化,2003,27(24):78-80. 被引量：75
8邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004,31(10):98-100. 被引量：4
9魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41. 被引量：18
10陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27

引证文献48

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2杨长春,沈晓玲.基于云计算的SLIQ并行算法研究[J].计算机工程与科学,2012,34(3):62-66. 被引量：6
3蒋立辉,董要颍,庄子波,姚彬.基于体绘制的三维云可视化研究[J].计算机技术与发展,2012,22(5):79-82. 被引量：4
4贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72. 被引量：97
5曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(4):92-97. 被引量：56
6徐肖,胡吉明.一种Hadoop中基于改进遗传算法的作业调度算法[J].计算机技术与发展,2013,23(3):10-13. 被引量：4
7王飞,缑锦.基于多变异粒子群优化算法的模糊关联规则挖掘[J].计算机科学,2013,40(5):217-223. 被引量：12
8王晓军,孙惠.基于MapReduce的多路连接优化方法研究[J].计算机技术与发展,2013,23(6):59-62. 被引量：5
9李哲青,周毅.云计算物联网数据挖掘模式的构建方式[J].数字技术与应用,2013,31(6):181-181.
10卢鑫,陈华辉,董一鸿,钱江波.MapReduce框架下的不确定数据Top-k查询计算[J].模式识别与人工智能,2013,26(7):695-704. 被引量：7

二级引证文献430

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2曾新洲.基于大数据的施药平台农药喷洒定量分析研究[J].农机化研究,2020,42(9):243-247. 被引量：3
3李旭辉,徐玉生.电力大数据高速存储及检索关键技术研究[J].中国科技纵横,2018,0(3):38-39.
4杜艳绥.基于Hadoop云计算平台的数据挖掘分析[J].信息技术与标准化,2013(4):36-38. 被引量：5
5俞华锋,赵宁华.网络大数据挖掘云服务平台的构建[J].科技视界,2013(18):41-41. 被引量：10
6王哈琴.云存储结构模型及云存储架构的比较研究[J].内蒙古民族大学学报（自然科学版）,2013,28(6):642-645. 被引量：3
7贺俊.探究计算机云计算的SLIQ并行算法分析[J].无线互联科技,2014,11(2):127-127. 被引量：1
8曲朝阳,刁赢龙,薄小永,朱莉,任有学,颜佳.基于多预测树组合算法的电力信息系统数据库缓存模型[J].电测与仪表,2014,51(6):70-75. 被引量：1
9伍茂戎,黄杜鹃,刘洵.湖南农业科技人才管理信息系统建设的构想[J].农业网络信息,2014(4):91-95.
10赵志梅,张黎烁.基于改进粒子群算法的提取齿轮磨损特征方法[J].计算机测量与控制,2014,22(5):1584-1586.

1陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
2江雨燕,李平.基于PFP-Growth算法的海量频繁项集挖掘[J].计算机技术与发展,2013,23(9):63-65. 被引量：2
3杨健兵.MapReduce框架下改进Apriori算法的研究[J].长春大学学报,2016,26(12):40-43. 被引量：2
4廖勇.基于差分隐私的频繁项集挖掘研究综述[J].电子技术与软件工程,2016(3):197-198.
5何婧媛.MapReduce编程模型的研究与改进[J].民营科技,2016(8):79-79.
6孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
7陆丽婷.基于Hadoop的数字化校园设计与实现[J].软件导刊,2014,13(10):15-17. 被引量：1
8黄守明,张红莉.基于云计算模式下的Apriori算法研究[J].铜陵学院学报,2013,12(3):106-108. 被引量：1
9周頔,杨清平.虹膜识别技术综述[J].科学技术与工程,2007,7(14):3497-3503. 被引量：4
10周頔,杨清平.虹膜识别技术综述[J].中国学术期刊文摘,2008,14(8):7-8. 被引量：1

计算机技术与发展

2011年第2期

浏览历史

内容加载中请稍等...

云计算环境下关联规则挖掘算法的研究被引量：48

参考文献9

二级参考文献6

共引文献38

同被引文献404

引证文献48

二级引证文献430

相关作者

相关机构

相关主题

浏览历史

云计算环境下关联规则挖掘算法的研究 被引量：48

参考文献9

二级参考文献6

共引文献38

同被引文献404

引证文献48

二级引证文献430

相关作者

相关机构

相关主题

浏览历史

云计算环境下关联规则挖掘算法的研究被引量：48