面向计算机集群系统的FP-Growth算法的并行计算被引量：1

Parallel FP-Growth Algorithm on PC Cluster

下载PDF

导出

摘要 FP-Growth是频繁模式挖掘的经典算法,能够在不产生候选集的情况下生成所有的频繁模式,效率与Apri-ori算法相比有巨大提高,然而FP-Growth算法在挖掘频繁模式过程中需要递归构建大量的条件FP-tree,并分别针对这些条件FP-tree进行挖掘,时间及空间效率不高,在实际应用中存在很大局限性。计算机集群是由多台普通计算机设备通过特定方式结合在一起构成的并行处理系统,属于分布式计算环境,具有计算能力强大、性价比高、灵活等优势。本文提出一种面向计算机集群的并行挖掘算法Gridify FP-Growth,该算法以FP-Growth为基础,通过任务划分的形式,将计算任务分配到计算机集群中各个计算节点上执行,充分利用各个节点的计算资源,最后汇总各节点的计算结果。实验证明Gridify FP-Growth算法不会牺牲计算的准确性,并可以大幅度缩短计算时间,有效缓解计算大规模数据库时的内存压力。 FP-Growth is the most popular algorithm for frequent patterns mining, which can produce all frequent patterns without generating candidate item sets. FP-Growth has better performance than previously reported algorithms such as Apriori. Nevertheless, the great amount of conditional pattern base and conditional FP-tree recursively generated during mining frequent patterns limits practical feasibility of FP-Growth algorithm when facing large scale data warehouse. Further performance improvement can be expected from parallel execution. PC cluster is a group of PC connected together through definite ways. It is a distributed computing environment and has some advantages such as great computing ability, flexibility and so on. We propose a new parallel algorithm named Gridify FP-Growth to implement on PC cluster. Gridify FP-Growth is based on FP-Growth algorithm, by allocating jobs to the nodes within the cluster to take full advantage of computing resource of each node. After that, the sub - result from each node will be combined to a total result. Experimental results show that Gridify FP-Growth can dramatically reduce the execution time as well as relieve the space pressure.

作者陈敏

机构地区北京科技大学经济管理学院

出处《中国管理信息化》 2009年第15期36-38,共3页 China Management Informationization

关键词频繁模式 FP—Growth 并行计算计算机集群 Frequent Patterns FP-Growth Parallel Execution PC Cluster

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Iko Pramudiono,Masaru Kitsuregawa.Parallel FP-Growth on PC Cluster[].Proc of the International Conference on Internet Com-puting.2003
2Artur Bykowski,Christophe Rigotti.A Condensed Representationto Find Frequent Patterns[].Proc of theth ACMSIGACT-SIG-MOD-SIGART Symp on Principles of Database System(PODS).2001
3Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules[].Proceedings of the th International Conference on Very Large Databases(VLDB’).1994
4Brin S,Motwani R,Silverstein C.Beyond Market Baskets:Generalizing Association Rules to Correlations[].Proceedings of the ACM-SIGMOD International Conference On Management of Data(SIGMOD’).1997
5Agrawal R,Srikant R.Mining sequential patterns[].Proceedings of the th International Conference on Data Engineering (ICDE’).1995
6Han J,Pei J,Yin Y.Mining Frequent Patterns Without Candidate Generation[].Proc ACM-SIGMOD.2000

同被引文献15

1邓丰义,刘震宇.基于模式矩阵的FP-growth改进算法[J].厦门大学学报（自然科学版）,2005,44(5):629-633. 被引量：17
2李超,余昭平.基于矩阵的Apriori算法改进[J].计算机工程,2006,32(23):68-69. 被引量：43
3王柏盛,刘寒冰,靳书和,马丽艳.基于矩阵的关联规则挖掘算法[J].微计算机信息,2007,23(05X):144-145. 被引量：18
4俞燕燕,李绍滋.基于散列的关联规则AprioriTid改进算法[J].计算机工程,2008,34(5):60-62. 被引量：8
5张忠平,李岩,杨静.基于矩阵的频繁项集挖掘算法[J].计算机工程,2009,35(1):84-86. 被引量：19
6张笑达,徐立臻.一种改进的基于矩阵的频繁项集挖掘算法[J].计算机技术与发展,2010,20(4):93-96. 被引量：8
7崔建,李强,杨龙坡.基于垂直数据分布的大型稠密数据库快速关联规则挖掘算法[J].计算机科学,2011,38(4):216-220. 被引量：24
8杨海廷.CARMA算法挖掘技术在图书流通中的实证研究[J].图书馆杂志,2012,31(1):70-75. 被引量：4
9罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
10尹绍宏,范桂丹.基于矩阵的数据流Top-k频繁项集挖掘算法[J].计算机工程,2014,40(3):55-58. 被引量：3

引证文献1

1李忠,安建琴,刘海军,宋奕瑶.关联挖掘算法及发展趋势[J].智能计算机与应用,2017,7(5):22-25. 被引量：8

二级引证文献8

1许德心,李玲娟.基于Spark的关联规则挖掘算法并行化研究[J].计算机技术与发展,2019,29(3):30-34. 被引量：7
2肖端翔.基于ALS协同过滤及频繁项挖掘的混合推荐算法[J].电子测试,2020,31(1):70-72. 被引量：1
3张宏伟,李晓欢,李春海,姚荣彬,唐欣.基于内存关联分析的预拷贝迁移优化策略[J].计算机工程,2020,46(3):222-228.
4赵嫚,李英娜,李川,杨莉.基于模糊聚类和孤立森林的用电数据异常检测[J].陕西理工大学学报（自然科学版）,2020,36(4):38-43. 被引量：21
5杜嘉伟,余粟.基于矩阵二进制编码遗传算法的频繁项集挖掘[J].智能计算机与应用,2021,11(1):143-146. 被引量：1
6杨伟伟,王思宁,郑贵德,宋亚琼.基于知识库的制造业能耗优化平台技术研究[J].电信科学,2022,38(8):178-185. 被引量：1
7周日辉.面向学生成绩分析的高效关联规则挖掘算法研究[J].电脑知识与技术,2022,18(30):48-50. 被引量：1
8周日辉.基于数据挖掘技术的教务综合管理平台的设计[J].电脑知识与技术,2023,19(5):68-70. 被引量：1

1施衡山.无线传感器网络路由协议研究[J].中国海洋大学学报（自然科学版）,2008,38(S1):214-216. 被引量：1
2何川,张友静,佘远见,陈晨,张阳.基于Web和IDL的遥感信息提取系统开发[J].遥感技术与应用,2009,24(3):405-408. 被引量：5
3张昱,金心宇.Java Applet与ASP相结合的Web数据库编程[J].微型机与应用,1999,18(7):36-37. 被引量：1
4包晓敏,包晓华.环境监控单元的研制[J].浙江工程学院学报,2000,17(3):182-185.
52016年ICT我国排名全球第81位,较2015年上升3位[J].中国机电工业,2017,0(1):14-14.
6胡雯雯.把DNA变成活硬盘[J].新科幻·科学阅读,2012,0(8):10-10.
7江枫.OS/390数据库市场进一步加强CA收购IDI公司[J].计算机与网络,1999,0(20):27-27.
8姜奇平.云计算之真伪说[J].中国防伪报道,2011(8):60-61.
9王海华.WORD文档中图片处理的研究[J].科技信息,2009(34).
10梅盈,刘东浩,王锋,邓辉,戴伟,季凯帆.中国频谱射电日像仪FITS-IDI文件格式研究[J].天文研究与技术,2014,11(4):388-395. 被引量：6

中国管理信息化

2009年第15期

浏览历史

内容加载中请稍等...

面向计算机集群系统的FP-Growth算法的并行计算被引量：1

参考文献6

同被引文献15

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向计算机集群系统的FP-Growth算法的并行计算 被引量：1

参考文献6

同被引文献15

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向计算机集群系统的FP-Growth算法的并行计算被引量：1