基于Spark的PFP-Growth并行算法优化实现被引量：6

Optimization of parallel FP-Growth algorithm based on Spark

下载PDF

导出

摘要随着数据量的增大,FP-Growth算法压缩数据思想的优势就体现出来,基于MapReduce框架的PFP-Growth算法实现该算法在Hadoop平台上的并行化,但是MapReduce框架每次对作业进行操作都要将中间结果输出存储到磁盘,影响算法的效率。为了提高关联挖掘的效率,基于Spark平台,运用均衡分组的思想对该算法进行改进,同时在对具有很长前缀情况进行共享前缀的拆分,通过4个步骤使IPFP-Growth算法在Spark上实现。实验结果表明在Spark平台上优化过后的算法在性能上要优于PFP-Growth算法。 The advantage of the FP-Growth algorithm for compressing data is reflected with the increasing of the data size.With the MapReduce framework,the PFP-Growth algorithm can be parallelized on the Hadoop platform. However,when processing tasks with the MapReduce framework,the intermediate results need to be written to the disk,which will affect the efficiency of the algorithm. Therefore,based on Spark platform,this algorithm was improved according to the concept of balanced grouping to improve the efficiency of association mining. In addition,if there is a long prefix,the improved algorithm will split the shared prefix. The IPFP-Growth is implemented in Spark through four steps. The experimental results show that the performance of the algorithm optimized in Spark is superior to that of the PFP-Growth algorithm.

作者方向张功萱

机构地区南京理工大学计算机科学与技术学院

出处《现代电子技术》北大核心 2016年第8期9-13,共5页 Modern Electronics Technique

基金江苏省973项目(BK2011022) 国家自然科学基金重点项目(612724420)

关键词并行化 SPARK 关联挖掘 PFP-Growth parallelization Spark association mining PFP-Growth

分类号 TN911-34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1HAN J, PEI J, YIN Y. Mining frequent patterns without candi- date generation [J]. ACM SIGMOD record, 2000, 29(2): 1-12.
2LI H, WANG Y, ZHANG D, et al. PFP: parallel FP-Growth for query recommendation [C]// Proceedings of the 2008 ACM Con- ference on Recommender Systems. rS.I.I: ACM. 2008; 107-114+.
3王智钢,王池社,马青霞.分布式并行关联规则挖掘算法研究[J].计算机应用与软件,2013,30(10):113-115. 被引量：13
4曾志勇,杨呈智,陶冶.负载均衡的FP-growth并行算法研究[J].计算机工程与应用,2010,46(4):125-126. 被引量：10
5吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
6ZHOU L, ZHONG Z, CHANG J, et al. Balanced parallel FP- Growth with MapReduce [C]// Proceedings of 2011 IEEE Youth Conference on Information Computing and Telecommunica- tions. [S.1.]: IEEE, 2010: 243-248.
7QIU H, GU R, YUAN C, et al. YAFIM: A parallel frequent itemset mining algorithm with Spark [C]// 2014 IEEE Interna- tional Parallel & Distributed Processing Symposium Work- shops. [S.1.]: IEEE, 2014: 1664-1671.

二级参考文献28

1谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
2Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[C]//Proceedings of the ACM SIG- MOD International Conference Management of Date,Washington,1993:207-216.
3Ha n J,Kamber M.Data mining:Concepts and techniques[M].Beijing: High Education Press, 2001.
4Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[C]//Proc 1993 ACM-SIGMOD Int Conf Management of Data, Washington, DC, May 1993 : 207-216.
5Savasere A,Omiecinski E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proc of the 21st VLDB Conference, Zurich, Switzerland, 1995 : 432-443.
6Agrawal R C,Agarwal C,Prasad V V V.A tree projection algorithm for generation of frequent itemscts[J].Journal of Parallel and Distributed Computing:Special Issue on High Performance Data Mining, 2000.
7Han J W,Pei J,Yin Y W,et al.Mining frequent patterns without candidate generation[C]//Proc ACM-SIGMOD Int Conf on Management of Data(SIGMOD'00),DalIas,TX,2000:1-12.
8Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation : A frequent-pattern tree approach[J].Data Mining and Knowledge Discovery, 2004,8 : 53-87.
9Han Jiawei, Pei Jian, ytin Yiwen. Mining frequent patterns without candidate generation [ C ]//SIGMOD' 00. [ s. 1.] :[ s. n. ] ,2000.
10Agrawal R, Shafer J C. Parallel mining of association rules[J].1EEE Transactions on knowledge and date engineering, 1996,8(6) :962-969.

共引文献34

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2郝志斌.并行FP-Growth算法相关技术研究[J].电脑知识与技术,2011,7(4):2220-2221.
3曾志勇,杨辉,余建坤.基于HMT和哈希树的Apriori并行算法研究[J].计算机工程与设计,2012,33(1):214-218. 被引量：3
4吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
5万宝秀,王智钢,顾芸涵,陈珠.云计算下的网络通信分析[J].科技资讯,2014,12(4):68-69.
6俞雯亮,王智钢,顾芸菡,马佳依.关联规则在超市购物系统中的应用[J].电脑与信息技术,2014,22(2):11-13.
7周庆燕,何利力.基于关系图提取算法的烟草销售客户关系管理的应用研究[J].工业控制计算机,2014,27(10):119-120.
8郑志娴.基于云计算的Apriori算法设计[J].莆田学院学报,2014,21(5):61-64. 被引量：2
9穆俊.基于云平台的并行关联规则挖掘算法分析[J].现代电子技术,2015,38(11):123-125. 被引量：7
10杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1

同被引文献42

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
3宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
4刘步中.基于频繁项集挖掘算法的改进与研究[J].计算机应用研究,2012,29(2):475-477. 被引量：31
5张素琪,梁志刚,胡利娟,董永峰.改进的多维关联规则算法研究及应用[J].计算机工程与科学,2012,34(9):174-179. 被引量：10
6江雨燕,李平.基于PFP-Growth算法的海量频繁项集挖掘[J].计算机技术与发展,2013,23(9):63-65. 被引量：2
7牛新征,佘堃.基于FPMAX的最大频繁项目集挖掘改进算法[J].计算机科学,2013,40(12):223-228. 被引量：9
8章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43
9陈兴蜀,张帅,童浩,崔晓靖.基于布尔矩阵和MapReduce的FP-Growth算法[J].华南理工大学学报（自然科学版）,2014,42(1):135-141. 被引量：22
10李有增,周全,蒋鸿玲.基于时空关联的高校社会网络关系挖掘方法研究[J].微电子学与计算机,2018,35(12):137-140. 被引量：3

引证文献6

1石陆魁,张欣,师胜利.基于Spark的FP_Growth算法的并行与优化[J].计算机工程与应用,2018,54(13):52-58. 被引量：4
2顾军华,武君艳,许馨匀,谢志坚,张素琪.基于Spark的并行FP-Growth算法优化及实现[J].计算机应用,2018,38(11):3069-3074. 被引量：9
3高权,万晓冬.基于负载均衡的并行FP-Growth算法[J].计算机工程,2019,45(3):32-35. 被引量：7
4张素琪,孙云飞,武君艳,顾军华.基于Spark的并行频繁项集挖掘算法[J].计算机应用与软件,2019,36(2):24-28. 被引量：6
5刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
6尹玉娇,张伟.一种基于图数据库的虚拟身份关系挖掘算法[J].软件导刊,2020,19(1):117-122. 被引量：2

二级引证文献55

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
3张馨雨,杨基宏,赖森华,徐刚,杨宇翔,刘辉.基于FP-growth算法的轨道交通系统全生命周期成本要素交互影响研究[J].企业技术开发,2018,37(12):39-43. 被引量：1
4刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
5杨海霞,李晨宇,章玲,卜玉华.基于FP-tree算法的评价指标关联信息挖掘和指标重要程度确定[J].系统工程,2019,37(3):141-150. 被引量：6
6张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
7毛宁宁,苏怀智,高建新.基于FP-growth的大坝安全监测数据挖掘方法[J].水利水电科技进展,2019,39(5):78-82. 被引量：11
8李军,刘举庆,游林,俞艳,张晓盼,董恒.时空大数据支持的土地储备智能决策体系与应用研究[J].中国土地科学,2019,33(9):111-120. 被引量：15
9李雷孝,刘燕凤,高静.Smith-Waterman算法优化改进与Spark并行化研究[J].内蒙古农业大学学报（自然科学版）,2019,40(5):76-85. 被引量：2
10石慧,陈恩.Spark平台的分布式阶段自适应关联规则挖掘算法[J].计算机与现代化,2019,0(12):31-38. 被引量：5

1宋春景,邓志文.FP-growth算法在高校学籍管理数据挖掘中的应用[J].经济视野,2013(24).
2马丽强,王天正,杨冬冬,王志鹏.基于弱关联挖掘技术的电网故障自动诊断研究[J].现代电子技术,2016,39(10):152-155. 被引量：4
3王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
4蔡乐,石荣,许都.基于关联规则挖掘的未知协议特征提取方法[J].电子信息对抗技术,2016,31(6):18-23. 被引量：5
5周晓峰,车颍涛.基于偏微分分类数学模型的关联挖掘改进技术[J].现代电子技术,2017,40(8):36-38. 被引量：3
6王江伟,郭民.关联规则在电子商务推荐系统中的应用[J].现代电子技术,2011,34(19):179-182. 被引量：6
7杨湘浩,申文.关联规则在VOD视频推荐技术中的应用研究[J].世界宽带网络,2013,20(1):63-65.
8陆忠敏,孙建,张家精.基于MapReduce框架的BCH码并行译码研究[J].安徽建筑工业学院学报（自然科学版）,2014,22(3):91-94.
9汤亚玲,崔志明.遗传算法在Web关联挖掘中的应用研究[J].微电子学与计算机,2005,22(10):4-6. 被引量：4
10刘炳均,戴云松.基于超算平台和Hadoop的并行转码方案设计[J].电视技术,2014,38(7):123-126. 被引量：5

现代电子技术

2016年第8期

浏览历史

内容加载中请稍等...

基于Spark的PFP-Growth并行算法优化实现被引量：6

参考文献7

二级参考文献28

共引文献34

同被引文献42

引证文献6

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于Spark的PFP-Growth并行算法优化实现 被引量：6

参考文献7

二级参考文献28

共引文献34

同被引文献42

引证文献6

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于Spark的PFP-Growth并行算法优化实现被引量：6