基于Spark的并行FP-Growth算法优化与实现被引量：8

OPTIMIZATION AND IMPLEMENTATION OF PARALLEL FP-GROWTH ALGORITHM BASED ON SPARK

下载PDF

导出

摘要频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 As an important problem of pattern recognition,frequent itemsets mining has been paid more and more attention by researchers. FP-Growth algorithm is widely used in frequent pattern mining because of its high efficiency and fast performance. However,the algorithm relies on the characteristics of local memory operation,making it difficult to adapt to large-scale data calculation. To solve these problems,this paper focuses on the research of frequent itemsets mining in a distributed environment. The FP-Growth algorithm which based on the Spark framework was improved by optimizing the support count and grouping process. Furthermore,the distributed computation and the dynamic allocation of computing resources were realized. The intermediate results were stored in the memory,so the I/O consumption was reduced and the efficiency of the algorithm was improved. The experimental results show that the improved distributed FP-Growth algorithm is superior to the traditional FP-Growth algorithm for large-scale data.

作者陆可桂伟江雨燕杜萍萍

机构地区安徽工业大学管理科学与工程学院

出处《计算机应用与软件》 2017年第9期273-278,共6页 Computer Applications and Software

基金国家自然科学基金项目(71371013) 安徽工业大学校青年教师科研基金项目(QZ201420) 安徽省教育厅自然科学基金项目(KJ2016A087)

关键词频繁模式挖掘 FP-GROWTH算法分布式计算 Spark框架 Frequent pattern mining FP-Growth algorithm Distributed computing Spark framework

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1段孝国.分布式计算技术介绍[J].电脑知识与技术,2011,7(8):5463-5465. 被引量：7
2胡敏,付琍.对几种典型分布式计算技术的比较[J].电脑知识与技术,2010(02Z):1244-1246. 被引量：2
3王轶,达新宇.分布式并行数据挖掘计算框架及其算法研究[J].微电子学与计算机,2006,23(9):223-225. 被引量：10
4王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报（自然科学版）,2011,26(5):19-24. 被引量：11
5吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
6杨勇,王伟.一种基于MapReduce的并行FP-growth算法[J].重庆邮电大学学报（自然科学版）,2013,25(5):651-657. 被引量：28
7施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
8薛志云,何军,张丹阳,曹维焯.Hadoop和Spark在实验室中部署与性能评估[J].实验室研究与探索,2015,34(11):77-81. 被引量：14
9黎文阳.大数据处理模型Apache Spark研究[J].现代计算机（中旬刊）,2015(3):55-60. 被引量：33

二级参考文献68

1万仁霞,陈瑞典.一种改进的Apriori算法[J].福州大学学报（自然科学版）,2005,33(2):282-284. 被引量：4
2邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
3邓传军,马志民.分布式计算模型探讨[D].福建:厦门大学,2005.
4奚丽倩,袁国良.浅析中间件技术的研究现状[D].上海:上海海事大学,2009.
5于涛,张继棠,雷飞鹏.Mobile Agent技术应用[D].重庆:重庆邮电大学,2007.
6周文莉,吴晓非.P2P技术综述[D].北京:北京邮电大学,2006.
7杨涛,刘金德.web service技术综述--一种面向服务的分布式计算模式[D].四川:电子科技大学,2004.
8邓倩妮,陈全.云计算及其关键技术[D].上海:上海交通大学,2009.
9Inmon W H. Building the data warehouse [ M ]. America : Wiley,2005.
10Gaber M M, Yu P S. A framework for resource- aware knowledge discovery in data streams: A holistic approach with its application [ C ] // Proceedings of the ACM symposium on Applied computing. Dijon, France : ACM Press, 2006 : 649 - 656.

共引文献124

1江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
2王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
3施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
4庄绪强.基于云计算技术的用户用电智能分析技术研究[J].自动化与仪器仪表,2016(2):187-189. 被引量：8
5华铨平.面向数据特征的分布式数据挖掘研究[J].计算机工程与设计,2010,31(6):1313-1315. 被引量：2
6何青松,吴承荣,曾剑平.一种基于微簇的分布式聚类算法[J].计算机应用与软件,2011,28(1):270-271.
7李凯,常征.基于云计算的并行数据挖掘系统设计与实现[J].微计算机信息,2011,27(6):121-123. 被引量：20
8马小龙.分布式计算技术在甘南藏区远程教育教学中的应用[J].实验室研究与探索,2012,31(8):65-67.
9李良杰,牟永敏,张志华.面向嵌入式系统函数动态调用路径拆分与匹配[J].数据通信,2012(4):22-25.
10曾培彬.基于分布式计算的雷达显示系统设计[J].北京联合大学学报,2013,27(1):55-58. 被引量：12

同被引文献73

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
2刘纪远,刘明亮,庄大方,张增祥,邓祥征.Study on spatial pattern of land-use change in China during 1995—2000[J].Science China Earth Sciences,2003,46(4):373-384. 被引量：69
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
5陈慧萍,王建东,王煜.频繁项集挖掘的研究与进展[J].计算机仿真,2006,23(4):68-73. 被引量：10
6宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
7于红,王秀坤,孟军.用有序FP-tree挖掘最大频繁项集[J].控制与决策,2007,22(5):520-524. 被引量：7
8周建华.一种基于日志关联分析的取证模型[J].计算机时代,2007(10):28-30. 被引量：1
9宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
10蓝祺花,吴博.频繁项集挖掘算法研究[J].计算机与现代化,2009(3):60-65. 被引量：3

引证文献8

1王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
2顾军华,武君艳,许馨匀,谢志坚,张素琪.基于Spark的并行FP-Growth算法优化及实现[J].计算机应用,2018,38(11):3069-3074. 被引量：8
3李广璞,黄妙华.频繁项集挖掘的研究进展及主流方法[J].计算机科学,2018,45(B11):1-11. 被引量：14
4张素琪,孙云飞,武君艳,顾军华.基于Spark的并行频繁项集挖掘算法[J].计算机应用与软件,2019,36(2):24-28. 被引量：6
5刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
6王明令,王苹,纪怀猛.基于改进FP-Growth算法的基因-疾病关系自动提取的应用研究[J].洛阳师范学院学报,2020,39(2):32-36. 被引量：3
7唐成龙,唐露新,杨旺功,孙道宗,薛秀云.基于FP-growth算法与分层线性模型交互的招生数据挖掘[J].济南大学学报（自然科学版）,2021,35(2):132-137. 被引量：6
8韦陈宁睿,邓三鸿.基于关联规则方法的土地利用时空变化规律研究——以广西壮族自治区为例[J].国土资源信息化,2021(1):30-37. 被引量：3

二级引证文献70

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2刘春贵,赵筱蓉.PLC控制在高压系统中的应用[J].四川冶金,2000,22(2):57-59.
3张馨雨,杨基宏,赖森华,徐刚,杨宇翔,刘辉.基于FP-growth算法的轨道交通系统全生命周期成本要素交互影响研究[J].企业技术开发,2018,37(12):39-43. 被引量：1
4刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
5赵霞,陈瑶,刘年平,廖俊.基于Hadoop的互联网医药大数据的获取及应用[J].药物生物技术,2019,26(1):15-20. 被引量：1
6杨海霞,李晨宇,章玲,卜玉华.基于FP-tree算法的评价指标关联信息挖掘和指标重要程度确定[J].系统工程,2019,37(3):141-150. 被引量：6
7蔡杰杰.基于编码的关联规则的挖掘算法[J].通讯世界,2019,26(7):27-28. 被引量：1
8张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
9吴浩.基于数据支持的Apriori分类算法的课程推荐研究[J].中国信息技术教育,2019,0(20):71-74. 被引量：1
10毛宁宁,苏怀智,高建新.基于FP-growth的大坝安全监测数据挖掘方法[J].水利水电科技进展,2019,39(5):78-82. 被引量：11

1赵炯.引人注目的网格计算[J].计算机与数字工程,2003,31(2):72-72.
2丁伟.迈向随时随地的计算[J].微电脑世界,2002(22):12-16.
3李晓辉,王淑艳.浅析云计算技术[J].数字技术与应用,2011,29(11):206-206. 被引量：3
4冯晓辉.计算[J].国外科技资料,1993(3):72-75.
5彭德纯.当前分布式计算研究之特点[J].国际学术动态,1996(6):20-22. 被引量：1
6陈徐毅.我们需要怎样的人工智能？[J].创意世界,2017,0(8):52-55.
7浅析分布式计算[J].个人电脑,2002,8(5):157-159.
8稿约[J].计算机应用,2008,28(S2):385-385.
9肖红,邱毓兰,彭德纯.改善分布式计算系统性能的若干方法[J].计算机工程与应用,1992,28(8):13-17.
10董红斌,石纯一.移动Agent技术研究[J].计算机科学,2000,27(4):58-61. 被引量：41

计算机应用与软件

2017年第9期

浏览历史

内容加载中请稍等...

基于Spark的并行FP-Growth算法优化与实现被引量：8

参考文献9

二级参考文献68

共引文献124

同被引文献73

引证文献8

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行FP-Growth算法优化与实现 被引量：8

参考文献9

二级参考文献68

共引文献124

同被引文献73

引证文献8

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行FP-Growth算法优化与实现被引量：8