一种基于Spark框架的并行FP-Growth挖掘算法被引量：14

A parallel FP-Growth mining algorithm based on Spark framework

下载PDF

导出

摘要 Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。 The Apriori and FP-Growth are classical algorithms in frequent pattern mining, brace the Apriori has more flaws, the FP-Growth is a more efficient algorithm in stand-alone computing environment. Aiming at the bottlenecks of non-parallel computing in the era of big data, we propose a balanced parallel frequent pattern （BPFT） growth algorithm based on the connect-weight （CW） matrix of items in each transaction, called CWBPFP, which achieves parallel computing based on Spark framework. We use the load balance strategy to group data, and the corresponding code of each frequent item is stored in the relevant group during grouping. The connect information of items in each transaction of each grouped data is stored into a lower triangular connect-weight matrix by each working node. We use the restricted sub-tree to accelerate the speed of producing conditional FP-tree, and employ the connectweight matrix to avoid the first scanning for the conditional patterns during mining frequent patterns of grouped data. The performance of the parallel mining FP-tree is improved due to the combination of the CW matrix and the restricted sub-tree applied to FP-tree mining process of each node. Experiments show that the CWBPFP has high performance and scalability on big data sets.

作者张稳罗可

机构地区长沙理工大学计算机与通信工程学院

出处《计算机工程与科学》 CSCD 北大核心 2017年第8期1403-1409,共7页 Computer Engineering & Science

基金国家自然科学基金(71371065 11671125) 湖南省科技计划项目(2013SK3146)

关键词数据挖掘关联规则 FP-GROWTH 大数据并行计算 SPARK data mining association rule FP-Growth big data parallel computing Spark

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43

二级参考文献18

1Jiawei Han,Jian Pei,Yiwen Yin.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record.2000(2)
2TANBEER S K,AHMED C F,JEONG B S.Parallel anddistributed frequent pattern mining in large databases[].th IEEE International Conference on High PerformanceComputing and Communications.2009
3Tu F,He B.A parallel algorithm for mining association rules based on FP-tree[].Advances in computer scienceenvironmentecoinformaticsand education.2011
4S. Xue-Li,L. Tao.Association rules parallel algorithm based on FP-tree[].ProcndInt Computer Engineering and Technology.2010
5Yang X,Liu Z,Fu Y.MapReduce as a programming model for association rules algorithm on Hadoop[].Proceedings of rd International Conference on Information Sciences and Interaction Sciences.2010
6Zhou L,Zhong Z,Chang J,et al.Balanced Parallel FPGrowth with Map-Reduce[].Proceedings of IEEE Youth Comference on Information Computing and Telecommunications (YC-ICT).2010
7Li L,Zhang M.The strategy of mining association rule based on cloud computing[].Proceedings of International Conference on Business Computing and Global Information.2011
8Vu L,Alaghband G.A fast algorithm combining FP-tree and TID-list for frequent pattern mining[].Proceedings of IEEE Conference on Information and Knowledge Engineering.2011
9Agrawal R,Srikant R.Fast algorithms for mining association rules[].Proceedings of the th International Conference on Very Large Data Bases.1994
10Woo Jongwook,Xu Yuhang.Market basket analysis algorithm with Map/Reduce of cloud computing[].Proceedings of TheInternational Confer-ence on Parallel and Distributed Processing Tech-niques and Applications.2011

共引文献53

1李伟亮,马传香,彭茗菁.基于MAPREDUCE并行处理的轨迹模式挖掘算法的研究[J].物联网技术,2014,4(10):69-71.
2白玲玲,韩天鹏,王峰.基于改进FP-tree的高实用项目集挖掘研究[J].赤峰学院学报（自然科学版）,2015,31(8):21-25.
3崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
4杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1
5陈运启.数据挖掘技术在煤矿隐患管理中的应用[J].工矿自动化,2016,42(2):27-30. 被引量：17
6钱慎一,王欢欢,杨铁松.改进关联规则算法在烟草物流销售规律中的应用[J].计算机系统应用,2016,25(3):204-208. 被引量：1
7张振友,孙燕,丁铁凡,刘鹏飞.一种新型的基于Hadoop框架的分布式并行FP-Growth算法[J].河北工业科技,2016,33(2):169-177. 被引量：7
8周国军,龚榆桐.基于MapReduce和矩阵的频繁项集挖掘算法[J].微电子学与计算机,2016,33(5):119-123. 被引量：7
9张伟科.一种改进的AprioriTid算法[J].沈阳工业大学学报,2016,38(3):314-318. 被引量：6
10朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4

同被引文献109

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
3宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
4张素琪,梁志刚,胡利娟,董永峰.改进的多维关联规则算法研究及应用[J].计算机工程与科学,2012,34(9):174-179. 被引量：10
5牛新征,佘堃.基于FPMAX的最大频繁项目集挖掘改进算法[J].计算机科学,2013,40(12):223-228. 被引量：9
6章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43
7徐丽红.以精准供给破解高校毕业生就业难题[J].教育科学,2018,34(4):55-60. 被引量：17
8陈小平.基于区块链理念的图书馆移动用户行为大数据挖掘研究[J].图书馆工作与研究,2018(12):63-68. 被引量：42
9申彦,朱玉全,刘春华.基于磁盘存储1项集计数的增量FP_GROWTH算法[J].计算机研究与发展,2015,52(3):569-578. 被引量：4
10贺亚威,侯整风,吴亮亮.一种基于位向量流分类算法的改进[J].合肥工业大学学报（自然科学版）,2015,38(3):331-335. 被引量：3

引证文献14

1王泽儒,王红梅,李芬田.基于Hadoop的2FP-Growth算法[J].长春工业大学学报,2018,39(2):150-155. 被引量：1
2陈倩,刘云,高钰莹.并行动态位向量频繁闭合序列模式挖掘算法[J].计算机工程与科学,2018,40(10):1717-1725. 被引量：2
3顾军华,武君艳,许馨匀,谢志坚,张素琪.基于Spark的并行FP-Growth算法优化及实现[J].计算机应用,2018,38(11):3069-3074. 被引量：9
4张素琪,孙云飞,武君艳,顾军华.基于Spark的并行频繁项集挖掘算法[J].计算机应用与软件,2019,36(2):24-28. 被引量：6
5刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
6叶符明,李雯婷.内存数据库中图论频繁模式挖掘方法仿真[J].计算机仿真,2019,36(10):458-461. 被引量：2
7谢抢来,杨威.基于FP＿Growth关联规则挖掘的多轨道数字音频文件分类研究[J].现代电子技术,2020,43(1):179-182. 被引量：3
8郑宪秋.基于时空约束和小波设计的非侵入式负载数据协同挖掘算法[J].西安工程大学学报,2019,33(6):643-648. 被引量：9
9主雪梅,杨洪秀,魏荣华,许雅涵.大数据环境下基于云计算的图书馆用户信息挖掘技术研究[J].现代电子技术,2020,43(6):168-170. 被引量：4
10许贤泽,谭盛煌,刘静,施元.基于并行模式挖掘和路径匹配的用户位置预测[J].东北大学学报（自然科学版）,2020,41(6):767-770. 被引量：3

二级引证文献75

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2宋晓春.数字音频及嵌入技术在广播电视工程中的应用[J].新一代信息技术,2022,5(8):87-89. 被引量：4
3马莹,赵辉,崔岩.基于Hadoop平台的改进KNN分类算法并行化处理[J].长春工业大学学报,2018,39(5):484-489. 被引量：4
4张馨雨,杨基宏,赖森华,徐刚,杨宇翔,刘辉.基于FP-growth算法的轨道交通系统全生命周期成本要素交互影响研究[J].企业技术开发,2018,37(12):39-43. 被引量：1
5刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
6杨海霞,李晨宇,章玲,卜玉华.基于FP-tree算法的评价指标关联信息挖掘和指标重要程度确定[J].系统工程,2019,37(3):141-150. 被引量：6
7张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
8毛宁宁,苏怀智,高建新.基于FP-growth的大坝安全监测数据挖掘方法[J].水利水电科技进展,2019,39(5):78-82. 被引量：11
9李军,刘举庆,游林,俞艳,张晓盼,董恒.时空大数据支持的土地储备智能决策体系与应用研究[J].中国土地科学,2019,33(9):111-120. 被引量：15
10李雷孝,刘燕凤,高静.Smith-Waterman算法优化改进与Spark并行化研究[J].内蒙古农业大学学报（自然科学版）,2019,40(5):76-85. 被引量：2

1班世炳.增删边对最短路径影响的研究[J].广西民族学院学报（自然科学版）,1998,4(2):39-41.
2李娜,余省威.云计算环境下多服务器多分区数据的高效挖掘方法设计[J].现代电子技术,2017,40(10):43-45. 被引量：9
3王章辉,赵宇海,王国仁,李源.多样性度量的Top-K区分子图挖掘[J].计算机科学与探索,2017,11(9):1379-1388. 被引量：1
4苏辉贵.省级银行安全监控专网的设计与实现[J].中国安防,2017(8):46-50. 被引量：1
5尹治华,张大鹏,谭明,王新生.一种改进的基于FP-Tree的高效挖掘最大频繁项目集算法[J].济南大学学报（自然科学版）,2017,31(2):111-117. 被引量：8

计算机工程与科学

2017年第8期

浏览历史

内容加载中请稍等...

一种基于Spark框架的并行FP-Growth挖掘算法被引量：14

参考文献2

二级参考文献18

共引文献53

同被引文献109

引证文献14

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

一种基于Spark框架的并行FP-Growth挖掘算法 被引量：14

参考文献2

二级参考文献18

共引文献53

同被引文献109

引证文献14

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

一种基于Spark框架的并行FP-Growth挖掘算法被引量：14