基于Spark的Apriori并行算法优化实现被引量：12

Optimization of Apriori Parallel Algorithm Based on Spark

下载PDF

导出

摘要针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率. In view of the bottleneck of traditional Apriori algorithm in processing speed and computing re-sources, and that Map-Reduce on Hadoop could not handle node failures, friendly support iterative calcu-lation, and calculate based on memory issues ,a parallel association rule optimization algorithm based on Spark was proposed. The optimization algorithm only needed to scan the transaction database twice and it took advantage of Spark’ s RDD storage structure. By comparing with the traditional Apriori and Apriori based on Hadoop, analysis showed that Apriori based on Spark more greatly reduced the number of scan database than that of traditional Apriori, and it used less I/O overhead than Apriori based on Hadoop, because it supported storing temporary results in memory and iterative calculation. Experimental results showed that Apriori based on Spark performed effectively on big data for mining association rules.

作者王青谭良杨显华 WANG Qingl TAN Liang YANG Xianhua(College of Computer Science, Sichuan Normal University, Chengdu 610101, China Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China Sichuan Institute of Computer Sciences, Chengdu 610041, China)

机构地区四川师范大学计算机科学学院中国科学院计算技术研究所四川省计算机研究院

出处《郑州大学学报（理学版）》 CAS 北大核心 2016年第4期60-64,共5页 Journal of Zhengzhou University:Natural Science Edition

基金国家自然科学基金资助项目(61373162) 四川省科技支撑项目(2014GZ007)

关键词并行化数据挖掘关联规则 Spark Apriori Spark parallel processing data mining association rule Apriori

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1宋威,李晋宏,徐章艳,杨炳儒.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47(2):277-285. 被引量：18
2毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980. 被引量：37
3陈玉哲,赵明华,李军,赵书良.基于移动agent和数据挖掘标准的分布式数据挖掘系统[J].郑州大学学报（理学版）,2011,43(1):90-94. 被引量：4
4伊瑶瑶,茅苏.Hadoop下的关联规则分析研究[J].计算机技术与发展,2015,25(9):84-88. 被引量：5
5刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18

二级参考文献64

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
3陶树平,钱挺.一种网格平台数据挖掘服务模式及其算法[J].计算机工程,2005,31(5):109-111. 被引量：10
4Ceglar A, Roddick J F. Association mining [J]. ACM Computing Surveys, 2006, 38 (2): 1-42.
5Piatetsky-Shapiro G. Data mining and knowledge discovery 1996 to 2005: Overcoming the hype and moving from "university" to "business" and "analytics"[J]. Data Mining Knowledge Discovery, 2007, 15(1): 99-105.
6Han J, Cheng H, Xin D, et al. Frequent pattern mining: Current status and future directions[J]. Data Mining and Knowledge Discovery, 2007, 15(1): 55-86.
7Calders T, Rigotti C, Boulicaut J F. A survey on condensed representations for frequent sets [G] //Constraint-Based Mining and Inductive Databases. Berlin: Springer, 2005:64- 80.
8Song W, Yang B R, Xu Z Y. Index-MaxMiner: A new maximal frequent itemset mining algorithm [J]. International Journal on Artificial Intelligence Tools, 2008, 17(2): 303- 320.
9Lucchese C, Orlando S, Perego R. Fast and memory efficient mining of frequent closed itemsets [J]. IEEE Trans on Knowledge and Data Engineering, 2006, 18 (1): 21-36.
10Liu G, Lu H, Lou W, et al. Efficient mining of frequent patterns using ascending frequency ordered prefix-tree [J]. Data Mining and Knowledge Discovery, 2004, 9 (3) : 249- 274.

共引文献75

1马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
2宋威,刘文博,李晋宏.基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J].山东大学学报（工学版）,2011,41(4):49-55. 被引量：3
3邓晓懿,金淳,樋口良之,韩庆平.面向个性化推荐的快速关联规则挖掘算法[J].情报学报,2011,30(9):963-972. 被引量：2
4马青霞.数据挖掘的技术特点及发展现状[J].金陵科技学院学报,2011,27(4):29-34. 被引量：1
5俸世洲,周尚波.关联规则在独立学院招生决策中的应用[J].计算机工程与科学,2012,34(1):119-123. 被引量：8
6周朴雄,陶梦莹.移动网络环境下情景敏感的个性化信息推荐系统研究[J].图书情报工作,2012,56(19):80-84. 被引量：18
7付宝君,王建华,贺裕,张广玲.基于移动Agent技术的物联网温室大棚管理模型[J].计算机应用,2012,32(A02):264-266. 被引量：5
8杨泽民.基于时序和兴趣度约束的加权关联规则挖掘算法研究[J].计算机科学,2013,40(3):259-262. 被引量：5
9王飞,缑锦.基于多变异粒子群优化算法的模糊关联规则挖掘[J].计算机科学,2013,40(5):217-223. 被引量：12
10何超,张玉峰.融合语义关联的企业竞争力影响因素分析研究[J].情报资料工作,2013,34(4):62-66.

同被引文献99

1肖小锋,蔡金燕,李文钊.基于证据理论的多诊断智能体解的综合方法[J].兵工学报,2006,27(4):737-740. 被引量：1
2宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
3曲守宁,王钦,邹燕,朱强.基于关联规则的文本聚类算法的研究[J].计算机应用研究,2008,25(4):986-988. 被引量：5
4王景艳.基于改进关联规则挖掘算法的图书推荐服务[J].福建电脑,2008,24(5):72-73. 被引量：5
5宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
6闵宇锋.网络教学系统中的可视化学习监控机制[J].现代教育技术,2010,20(1):92-96. 被引量：10
7王家胜,牟肖光.读者借阅多维关联规则挖掘模型的建立与分析[J].计算机应用,2011,31(11):3084-3086. 被引量：12
8景民昌,于迎辉.基于借阅时间评分的协同图书推荐模型与应用[J].图书情报工作,2012,56(3):117-120. 被引量：24
9刘敏娴,马强,宁以风.基于频繁矩阵的Apriori算法改进[J].计算机工程与设计,2012,33(11):4235-4239. 被引量：20
10苗苗苗,王玉英.基于矩阵压缩的Apriori算法改进的研究[J].计算机工程与应用,2013,49(1):159-162. 被引量：29

引证文献12

1朱晓敏,祁建军.基于三支概念格线图的混合蕴含获取[J].郑州大学学报（理学版）,2017,49(4):16-21. 被引量：5
2李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
3高琪娟,刘锴,陈佳.面向Spark的图书借阅数据关联模型的研究[J].安徽农业大学学报,2018,45(4):768-771. 被引量：7
4令宝.基于数据挖掘的运动员神经类型特征评估系统构建[J].自动化与仪器仪表,2018,0(10):165-168. 被引量：2
5王进,晏世凯,高延雨,金理雄,胡明星,邓欣,陈乔松.基于MPI的ML-kNN算法并行[J].郑州大学学报（理学版）,2018,50(3):34-38. 被引量：4
6梁瑷云,袁丁,严清,刘小久.Spark平台下关联规则算法的优化实现[J].计算机工程与设计,2018,39(12):3692-3699. 被引量：4
7周显春,肖衡,高华玲.Apriori算法在个性化学习中的应用研究[J].现代计算机（中旬刊）,2018(12):18-22.
8张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3
9刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
10武守晓,房俊.面向高速乱序流的top-k连续查询方法[J].郑州大学学报（理学版）,2021,53(3):93-99. 被引量：2

二级引证文献63

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2AnneHudsonJones.医学与文学的传统及创新[J].医学与哲学,2000,21(5):59-61. 被引量：12
3祝永志.基于Spark的Hybrid推荐算法的研究与实现[J].电子技术（上海）,2018,47(12):59-62. 被引量：2
4祝永志.基于Spark技术的ALS推荐算法的可扩放性研究[J].电子技术（上海）,2018,47(6):27-29. 被引量：1
5郭奇瑞,魏玲.基于OE概念格的理想因子分解[J].西北大学学报（自然科学版）,2018,48(3):323-329. 被引量：1
6郑文彬,何秋红.基于区间概念格的频繁闭项集挖掘算法[J].内蒙古民族大学学报（自然科学版）,2018,33(6):475-479.
7杨海霞,李晨宇,章玲,卜玉华.基于FP-tree算法的评价指标关联信息挖掘和指标重要程度确定[J].系统工程,2019,37(3):141-150. 被引量：6
8吴云龙.江苏大学图书推荐系统让学生借书“不迷路”[J].中国教育网络,2019(6):70-71. 被引量：1
9魏玲,高乐,祁建军.三支概念分析研究现状与展望[J].西北大学学报（自然科学版）,2019,49(4):527-537. 被引量：9
10张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1

1林长方,吴扬扬,黄仲开,曾少俊.基于MapReduce的Apriori算法并行化[J].江南大学学报（自然科学版）,2014,13(4):411-415. 被引量：13
2黄立勤,柳燕煌.基于MapReduce并行的Apriori算法改进研究[J].福州大学学报（自然科学版）,2011,39(5):680-685. 被引量：19
3曾志勇,杨辉,余建坤.基于HMT和哈希树的Apriori并行算法研究[J].计算机工程与设计,2012,33(1):214-218. 被引量：3
4李敬有,邓文新,张昕.基于数据挖掘技术的智能信息处理系统[J].齐齐哈尔大学学报（自然科学版）,2007,23(3):29-32. 被引量：1
5程广,王晓峰.基于MapReduce的并行关联规则增量更新算法[J].计算机工程,2016,42(2):21-25. 被引量：12
6程国建,赵倩倩.K-means聚类算法在Spark平台上的应用[J].软件导刊,2016,15(2):146-148. 被引量：4
7殷伟杰.基于分布式并行关联规则的挖掘算法[J].电子技术与软件工程,2014(5):207-207.
8邓万宇,李力,牛慧娟.基于Spark的并行极速神经网络[J].郑州大学学报（工学版）,2016,37(5):47-56. 被引量：4
9陈涛,张玮.一个改进的并行关联规则算法研究[J].计算机技术与发展,2007,17(1):139-141. 被引量：3
10余涛,刘泽燊.基于Spark的并行遗传算法研究[J].计算机时代,2017,0(1):43-46. 被引量：5

郑州大学学报（理学版）

2016年第4期

浏览历史

内容加载中请稍等...

基于Spark的Apriori并行算法优化实现被引量：12

参考文献5

二级参考文献64

共引文献75

同被引文献99

引证文献12

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Spark的Apriori并行算法优化实现 被引量：12

参考文献5

二级参考文献64

共引文献75

同被引文献99

引证文献12

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Spark的Apriori并行算法优化实现被引量：12