一种基于FP-growth的并行SON算法的实现被引量：2

Implementation of paralleled SON algorithm based on FP-growth

下载PDF

导出

摘要单节点运行的传统SON算法能够有效降低CPU和I/O负载,而且算法仅需要对整个事务数据集扫描两次。但是在算法执行的阶段一中发现局部频繁项集时采用的Apriori算法仍然需要对每个分区进行多次扫描。在深入研究SON算法的基础上,根据MapReduce编程模型提出了基于FPgrowth的SON算法的并行化实现。实验结果表明,基于FP-growth的并行SON算法不仅降低了传统SON算法的运行时间,并且随着分区数目的增加还能获取比较好的加速比。 Traditional SON algorithm running in the single node can effectively reduce CPU and I/O overhead. And it comes true in only two scans of entire transaction data sets. But every partition needs to be scanned multiple number of times by Apriori algorithm adopted to find frequent items by phrase one of SON. Based on the research of SON algorithm,a paralleled SON algo- rithm adopting FP-growth algorithm was proposed on the basis of MapReduce paradigm. The experiments show that paralleled SON algorithm based on FP-growth runs in less time than it based on Apriori. And it can obtain liner speedup with the growing num- bers of partitions.

作者郭进伟皮建勇

机构地区贵州大学计算机科学与技术学院贵州大学云计算与物联网研究中心

出处《微型机与应用》 2014年第8期60-63,共4页 Microcomputer & Its Applications

关键词 FP-GROWTH SON算法 MAPREDUCE 数据挖掘 FP-growth SON algorithm MapReduce data mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1AGRAWAL R ,SRIKANT R.Fast algorithms for mining association rules[C].Proceedings of 20th Conference on Very Large Data Bases, 1994:487-499.
2Han Jiawei, Pei Jian, Yin Yiwen.Mining frequent patterns without candidate generation[C].Proceedings of Conference on the Management of Data, 2000 : 1-12.
3SAVASERE A, OMIECINSKI E, NAVATHE S.An efficient algorithm for mining association rules in large databases[C]. Proceedings of the 21st Conference on Very Large Database, 1995 : 432-444.
4DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM, 2008,51(1): 107-113.
5Apache Hadoop [EB/OL]. [2013-07-12 ]. http://hadoop. apache, org.
6李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
7Apache Mahouts [EB/OL].[2013-08-12 ].http://mahout. apache.org/.
8Frequent Itemset Mining Dataset Repository[EB/OL].[2013- 08-28].http://fimi.ua.ac.be/data.

二级参考文献45

1宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
2J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
4W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
5A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
6A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
7H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
8S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.
9Z Vrba,P Halvorsen,et al.Kahn process networks are a flexible alternative to mapreduce .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2009.154-162.
10Apache hadoop .http://lucene.apache.org/hadoop/,2010-10-15/2010-12-28.

共引文献186

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
2亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
3李建敦,彭俊杰,张武.云存储中一种基于布局的虚拟磁盘节能调度方法[J].电子学报,2012,40(11):2247-2254. 被引量：10
4许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
5应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,30(2):161-164. 被引量：20
6应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013,21(5):1205-1209. 被引量：10
7肖淇,秦云川,阳王东,李肯立.一种基于MapReduce的防火墙策略冲突并行化检测及消解模型[J].计算机科学,2013,40(3):50-54. 被引量：6
8赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
9吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
10宋杰,郝文宁,陈刚,靳大尉,赵水宁.基于MapReduce的分布式ETL体系结构研究[J].计算机科学,2013,40(6):152-154. 被引量：9

同被引文献13

1黄红星,王秀丽,黄习培.挖掘最大频繁项集的改进蚁群算法[J].计算机工程与应用,2011,47(13):161-165. 被引量：3
2陈昌敏,谢维成,范颂颂.自适应和最大最小蚁群算法的物流车辆路径优化比较[J].西华大学学报（自然科学版）,2011,30(3):5-8. 被引量：8
3叶枫,王志坚,徐新坤,王丽娜,张雪洁.一种基于QoS的云负载均衡机制的研究[J].小型微型计算机系统,2012,33(10):2147-2152. 被引量：11
4朱志祥,许辉辉,王雄.基于云计算的弹性负载均衡方案[J].西安邮电大学学报,2013,18(6):43-47. 被引量：9
5陈兴蜀,张帅,童浩,崔晓靖.基于布尔矩阵和MapReduce的FP-Growth算法[J].华南理工大学学报（自然科学版）,2014,42(1):135-141. 被引量：22
6周发超,王志坚,叶枫,邓玲玲.关联规则挖掘算法Apriori的研究改进[J].计算机科学与探索,2015,9(9):1075-1083. 被引量：32
7刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18
8聂世青,钟勇,崔梦天.一种基于负载熵的层次负载均衡算法[J].计算机应用,2016,36(A02):33-36. 被引量：7
9许凯波,鲁海燕,程毕芸,黄洋.求解TSP的改进信息素二次更新与局部优化蚁群算法[J].计算机应用,2017,37(6):1686-1691. 被引量：35
10杨程,范强,王涛,尹刚,王怀民.基于多维特征的开源项目个性化推荐方法[J].软件学报,2017,28(6):1357-1372. 被引量：7

引证文献2

1佘雅莉,周良.基于混合蚁群关联规则挖掘的危险源分析算法[J].计算机技术与发展,2018,28(11):89-93. 被引量：3
2晏依,徐苏.Hadoop环境下基于并行熵的FIUT算法挖掘[J].计算机工程与设计,2019,40(3):685-690. 被引量：6

二级引证文献9

1王辉,潘俊辉,王浩畅,张强.基于Hadoop的数据挖掘实践平台研究与应用[J].赤峰学院学报（自然科学版）,2020,36(2):51-53. 被引量：2
2李华,刘占伟,郭育艳.并行PSO结合粗糙集的大数据属性约简算法[J].计算机工程与设计,2020,41(8):2238-2244. 被引量：6
3钟章生,陈世炉,陈志龙.利用并行惯性权重OOL-FA的大数据分类[J].计算机工程与设计,2020,41(10):2818-2824. 被引量：1
4颜烨,张学文,王立婧.基于迭代MapReduce的混合云大数据分析[J].计算机工程与设计,2021,42(4):1028-1035. 被引量：4
5钟倩漪,钱谦,伏云发,冯勇.粒子群优化算法在关联规则挖掘中的研究综述[J].计算机科学与探索,2021,15(5):777-793. 被引量：25
6尹旭熙.基于Hadoop和Spark的可扩展性化工类大数据分析系统设计[J].粘接,2021(6):81-83. 被引量：1
7郝婉琳.面向大学生心理健康预警的因素灰度关联算法研究[J].电子设计工程,2022,30(11):12-16.
8陈鞭,伍友利,吴鑫,甘跃鹏.红外对抗中各因素之间关系的深度挖掘[J].航空兵器,2022,29(3):42-46.
9李静,赵青杉,高媛.基于机器学习的大数据隐私非交互式查询研究[J].计算机仿真,2023,40(8):334-338.

1骆盈盈,陈川,毛云芳.基于传感器网络的关联规则挖掘算法研究[J].计算机工程与设计,2007,28(8):1762-1764. 被引量：2
2张艺雪,黄毅杰.一种基于MapReduce的Apriori改进算法研究[J].兰州工业学院学报,2014,21(6):13-16. 被引量：2
3郭进伟,皮建勇.基于MapReduce的SON算法实现[J].计算机应用,2014,34(A01):100-102. 被引量：7
4薛锦,陈原斌.一种实用的关联规则增量式更新算法[J].计算机工程与应用,2003,39(13):212-213. 被引量：2
5高明,刘希玉,盛立.改进的关联规则增量式更新算法[J].滨州学院学报,2005,21(3):33-37. 被引量：1
6洪月华.传感器网络分布式数据流的频繁项集挖掘算法[J].计算机科学,2013,40(2):58-60. 被引量：4
7黄毅杰.一种基于Map Reduce的关联规则挖掘算法[J].兰州文理学院学报（自然科学版）,2014,28(5):48-51.
8朱玉全,孙志挥.一种有效的关联规则增量式更新算法[J].计算机工程与应用,2001,37(23):28-29. 被引量：8
9朱琼,施荣华.一种数据流中的频繁模式挖掘算法[J].计算机应用,2008,28(6):1463-1466. 被引量：3
10徐瑞,乔志萍,李伟华.单维关联规则快速Apriori算法研究[J].微电子学与计算机,2005,22(2):43-45. 被引量：5

微型机与应用

2014年第8期

浏览历史

内容加载中请稍等...

一种基于FP-growth的并行SON算法的实现被引量：2

参考文献8

二级参考文献45

共引文献186

同被引文献13

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于FP-growth的并行SON算法的实现 被引量：2

参考文献8

二级参考文献45

共引文献186

同被引文献13

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于FP-growth的并行SON算法的实现被引量：2