集群系统中的FP-Growth并行算法被引量：8

FP-Growth Parallel Algorithm in Cluster System

下载PDF

导出

摘要针对FP-Growth算法面临大规模数据库时空效率不高的问题,提出一种面向计算机集群的并行算法。采用投影方法直接寻找频繁项的条件数据库,将挖掘条件数据库的工作分化成若干独立的子任务,分配到集群中的节点上并行实现,由中央节点汇总结果并输出。结果证明,该算法不仅能够提高计算速度,解决数据库规模过大时内存溢出的情况,且具有良好的延展性。 When the dataset size is huge, both the memory usage and computational cost of FP-Growth algorithm are expensive. This paper proposes a parallel algorithm, which is designed to run on the PC cluster. This algorithm finds all the conditional pattern bases of frequent items by the projection method. It splits the mining task into number of independent sub-tasks, executes these sub-tasks in parallel on nodes and aggregates the sub-results back for the final result. Experiments show that this parallel algorithm not only can accelerate the computational speed, avoids the memory overflow, but also achieves much better scalability than the FP-Growth algorithm.

作者陈敏李徽翡

机构地区北京科技大学经济管理学院国际商业机器全球服务(中国)有限公司

出处《计算机工程》 CAS CSCD 北大核心 2009年第20期71-72,75,共3页 Computer Engineering

基金国家自然科学基金资助项目"高维稀疏数据聚类研究"(70771007)

关键词 FP-GROWTH算法计算机集群并行算法 FP-Growth algorithm PC cluster parallel algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Agrawal R, Imielinski T, Swami A N. Mining Association Rules Between Sets of Items in Large Databases[C]//Proc. of the ACM SIGMOD International Conference on Management of Data. Washington D.C., USA: ACM Press, 1993: 207-216.
2Han Jiawei, Pei Jian, Yin Yiwen. Mining Frequent Patterns Without Candidate Generation[C]//Proc. of ACM-SIGMOD International Conference on Management of Data. Dallas, USA: ACM Press, 2000: 1-12.
3ZaIane O R, Mohammad E H, Lu P. Fast Parallel Association Rule Mining Without Candidacy Generation[C]//Proc. of the 1st 1EEE International Conference on Data Mining. San Jose, USA: IEEE Computer Society Press, 2001: 665-668.
4Liu Li, Li E, Zhang Yimin, et al. Optimization of Frequent Itemset Mining on Multiple-core Processor[C]//Proc. of the 33rd International Conference on Very Large Data Bases. Vienna, Austria: VLDB Endowment, 2007:1275-1285.
5郑斌,李涓子.一种基于FP-Growth的改进算法[J].平顶山工学院学报,2008,17(4):9-12. 被引量：2

二级参考文献6

1阮幼林,李庆华,刘干.最大频繁模式的快速挖掘与更新算法[J].计算机工程与应用,2005,41(24):23-26. 被引量：3
2胡宏银.1999年中国智能自动化学术会议论文集[C].北京:清华大学出版社,1999:812-817.
3R Groth.侯迪等译.数据挖掘-构筑企业竞争优势[M].西安:西安交通大学出版社,2001.
4J Han,J Pei, Y Yin. Mining Frequent Patterns Without Candidate Generation[C]. In: Proe ACM- SIGMOD,Dallas,TX,2000 - 05.
5[加]Jiawei Han Micheline Kamber,范明,孟小峰等译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
6杨红菊,梁吉业.一种挖掘频繁项集和频繁闭包项集的算法[J].计算机工程与应用,2004,40(13):176-178. 被引量：5

共引文献1

1陈东,高文根,李鹏飞,陈亮.磷酸铁锂电池SOC-OCV曲线特性研究[J].黑龙江工业学院学报（综合版）,2021,21(12):89-94. 被引量：5

同被引文献74

1邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004,31(10):98-100. 被引量：4
2谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
3Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
4Agrawal R,Imielinski T,Swami A,et al.Mining Association rule between sets of items in large database[J].SIGMOD93,1993:207-216.
5Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [ C ]//Proceedings of ACM SIGMOD In- ternational Conference on Management of Date, 1993:207 - 216.
6Agrawal R, Srikant R. Fast algorithms for mining association rules [C]//Proceedings of the 1994 International Conference on Very Large Data Bases, 1994:487 - 499.
7Han J, Pei J, Yin Y. Mining Frequent Patterns Without Candidate Gen- eration[ C]//Proceedings of ACM SIGMOD International Conference on Management of Data,2000 : 1 - 12.
8Pramudiono I, Kitsuregawa M. Parallel FP-Growth on PC cluster[ C ]// Proceedings of International Conference on Internet Computing,2003 : 467 - 473.
9Zaiane O R, Mohammad E H, Lu P. Fast parallel association rule mining without candidacy generation[ C]//Proceedings of 1st IEEE International Conference on Data Mining,2001 : 665 - 668.
10Liu L, Li E, Zhang Y, et al. Optimization of frequent item-set mining on multiple-core processors [ C ]//Proceedings of 33 rd International Con- ference on Very Large Data Bases,2007:1275-1285.

引证文献8

1郝志斌.并行FP-Growth算法相关技术研究[J].电脑知识与技术,2011,7(4):2220-2221.
2王智钢,王池社,马青霞.分布式并行关联规则挖掘算法研究[J].计算机应用与软件,2013,30(10):113-115. 被引量：13
3冯勇,尹洁娜,徐红艳.基于垂直频繁模式树带有负载均衡的分布关联规则挖掘算法[J].计算机应用,2014,34(2):396-400. 被引量：8
4郑海雁,王远方,熊政,李昆明,崇志宏,尹飞.标签集约束近似频繁模式的并行挖掘[J].计算机工程与应用,2015,51(9):135-141. 被引量：7
5马强,杨金民.基于MapReduce的频繁项集并行挖掘算法[J].计算机应用与软件,2015,32(9):13-16. 被引量：9
6王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
7吴洁明,王维.基于Hadoop的Web应用日志挖掘[J].北方工业大学学报,2017,29(5):94-99. 被引量：1
8张乐,魏昕怡,徐苏,林两位.面向大数据的数据库划分FP-Growth改进算法[J].南昌大学学报（理科版）,2022,46(5):570-576. 被引量：3

二级引证文献41

1万宝秀,王智钢,顾芸涵,陈珠.云计算下的网络通信分析[J].科技资讯,2014,12(4):68-69.
2俞雯亮,王智钢,顾芸菡,马佳依.关联规则在超市购物系统中的应用[J].电脑与信息技术,2014,22(2):11-13.
3贺海涛,郑山红,李万龙,彭馨仪.基于关联规则和语义规则的本体概念提取研究[J].吉林大学学报（信息科学版）,2014,32(6):657-663. 被引量：8
4穆俊.基于云平台的并行关联规则挖掘算法分析[J].现代电子技术,2015,38(11):123-125. 被引量：7
5王洪峰,陈立勇.云计算环境下基于张量分解的缺失关联规则挖掘算法[J].重庆邮电大学学报（自然科学版）,2015,27(3):397-403. 被引量：5
6丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
7王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
8孟彩霞.大数据环境下不良网络内容识别技术研究[J].软件导刊,2015,14(11):19-21. 被引量：3
9杨向荣,王希武.基于规则约束的并行FP-Growth算法研究[J].计算机与数字工程,2015,43(11):1933-1936. 被引量：2
10刘鑫.电力大系统振荡数据的可靠性挖掘算法[J].电力与能源,2015,36(6):831-835.

1杨一珊,张武军,李林.绘图软件标准化定制[J].农业工程,2015,5(1):85-87.
2晓航.除去安全隐患——天融信VPN整体解决方案[J].网管员世界,2005(2):27-28.
3刘杰,朱磊,范纪松,李业军.支持度门限改变下的频繁闭项集增量挖掘[J].军事通信技术,2008,29(4):20-24.
4张付志.提高多条件数据库统计速度的方法[J].软件,1994,15(5):47-55.
5高莉莎,罗军舟,东方,宋爱波.基于Mesh结构的网格资源发现机制[J].通信学报,2006,27(11):113-118. 被引量：6
6汪之松,陈辉堂.基于LonWorks技术的多通道数据采集与监控系统的设计与实现[J].电子与自动化,2000,29(4):7-9. 被引量：5
7使复制内容“所见即所得”[J].电脑爱好者,2012(13):38-38.
8崔诗程,李千目,戈峰.基于Lucene的全文检索架构设计[J].南京理工大学学报,2015,39(6):692-697. 被引量：4
9马志华.校园网络建设方案探讨[J].中小学电教（下）,2010,0(6):135-135.
10计算机基础知识系列讲座（续）[J].青海统计,2000(10):58-58.

计算机工程

2009年第20期

浏览历史

内容加载中请稍等...

集群系统中的FP-Growth并行算法被引量：8

参考文献5

二级参考文献6

共引文献1

同被引文献74

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

集群系统中的FP-Growth并行算法 被引量：8

参考文献5

二级参考文献6

共引文献1

同被引文献74

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

集群系统中的FP-Growth并行算法被引量：8