分布式并行关联规则挖掘算法研究被引量：13

RESEARCH ON DISTRIBUTED PARALLEL ASSOCIATION RULE MINING

下载PDF

导出

摘要关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避免全局FP-tree可能过大而内存无法容纳的问题,算法在各个主要步骤上都实现了并行处理。算法测试结果和分析表明,与传统的关联规则挖掘算法FP-Growth相比,该算法通过多节点分布式并行处理显著提高了执行效率和处理能力。 In association rule mining, though the FP-Growth algorithm is approximately one order of magnitude faster than the Apriori algorithm, but it has two disadvantages： the first is that its frequent pattern tree may be too big to be created in the memory ; the second is its serial processing approach. In this paper we propose a kind of distributed parallel association rule mining algorithm. It is for the distributed applied data framework, does not need to create the global FP-tree so avoids the problem of too big the global FP tree that fills the memory to excess. In all its principal steps the algorithm achieves parallel processing. Test resuh and analysis of the algorithm show that compared with conventional association rule mining algorithm FP-Growth, this one significantly improves the executing efficiency and the processing ability by multi-node distributed parallel processing.

作者王智钢王池社马青霞

机构地区金陵科技学院信息技术学院江苏省信息分析工程实验室

出处《计算机应用与软件》 CSCD 北大核心 2013年第10期113-115,119,共4页 Computer Applications and Software

基金江苏省现代教育技术研究项目(2011-R-19470) 江苏省高校自然科学基金项目(11KJD520006)

关键词数据挖掘关联规则频繁模式并行算法 Data mining Association rule Frequent pattern Parallel algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [ C ]//Proceedings of ACM SIGMOD In- ternational Conference on Management of Date, 1993:207 - 216.
2Agrawal R, Srikant R. Fast algorithms for mining association rules [C]//Proceedings of the 1994 International Conference on Very Large Data Bases, 1994:487 - 499.
3朱玉全,孙志挥,季小俊.基于频繁模式树的关联规则增量式更新算法[J].计算机学报,2003,26(1):91-96. 被引量：80
4Han J, Pei J, Yin Y. Mining Frequent Patterns Without Candidate Gen- eration[ C]//Proceedings of ACM SIGMOD International Conference on Management of Data,2000 : 1 - 12.
5Pramudiono I, Kitsuregawa M. Parallel FP-Growth on PC cluster[ C ]// Proceedings of International Conference on Internet Computing,2003 : 467 - 473.
6Zaiane O R, Mohammad E H, Lu P. Fast parallel association rule mining without candidacy generation[ C]//Proceedings of 1st IEEE International Conference on Data Mining,2001 : 665 - 668.
7Liu L, Li E, Zhang Y, et al. Optimization of frequent item-set mining on multiple-core processors [ C ]//Proceedings of 33 rd International Con- ference on Very Large Data Bases,2007:1275-1285.
8谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
9陈敏,李徽翡.集群系统中的FP-Growth并行算法[J].计算机工程,2009,35(20):71-72. 被引量：8

二级参考文献16

1Agrawal R, Imielinski T, Swami A N. Mining Association Rules Between Sets of Items in Large Databases[C]//Proc. of the ACM SIGMOD International Conference on Management of Data. Washington D.C., USA: ACM Press, 1993: 207-216.
2Han Jiawei, Pei Jian, Yin Yiwen. Mining Frequent Patterns Without Candidate Generation[C]//Proc. of ACM-SIGMOD International Conference on Management of Data. Dallas, USA: ACM Press, 2000: 1-12.
3ZaIane O R, Mohammad E H, Lu P. Fast Parallel Association Rule Mining Without Candidacy Generation[C]//Proc. of the 1st 1EEE International Conference on Data Mining. San Jose, USA: IEEE Computer Society Press, 2001: 665-668.
4Liu Li, Li E, Zhang Yimin, et al. Optimization of Frequent Itemset Mining on Multiple-core Processor[C]//Proc. of the 33rd International Conference on Very Large Data Bases. Vienna, Austria: VLDB Endowment, 2007:1275-1285.
5[1]Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases. In: Proceedings of ACM SIGMOD International Conference on Management of Date, Washington DC, 1993.207～216
6[2]Agrawal R, Srikant R. Fast algorithm for mining association rules. In: Proceedings of the 20th International Conference on VLDB, Santiago, Chile, 1994. 487～499
7[3]Han J, Kamber M. Data Mining: Concepts and Techniques. Beijing: Higher Education Press, 2001
8[5]Agrawal R, Shafer J C. Parallel mining of association rules:Design, implementation, and experience. IBM Research Report RJ 10004,1996
9[6]Savasere A, Omiecinski E, Navathe S. An efficient algorithm for mining association rules. In: Proceedings of the 21th International Conference on VLDB, Zurich, Switzerland, 1995. 432～444
10[7]Hah J, Jian P et al. Mining frequent patterns without candidate generation. In: Proceedings of ACM SIGMOD International Conference on Management of Data, Dallas, TX, 2000.1～12

共引文献94

1徐龙,杨君锐.基于数据库变化的关联规则增量式更新算法[J].重庆科技学院学报（自然科学版）,2007,9(4):67-70. 被引量：1
2易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
3邓小妮,罗雪山.一种基于事务时间分割的关联规则增量式更新方法[J].计算机工程与应用,2004,40(23):176-179. 被引量：1
4朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
5杨君锐.频繁项目集二次挖掘方法研究[J].系统工程与电子技术,2004,26(11):1701-1704.
6李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
7缪红保,李卫.基于数据挖掘的用户安全行为分析[J].计算机应用研究,2005,22(2):105-107. 被引量：11
8郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
9李华君,周海岩.基于项目集知识库的关联规则挖掘与更新的高效算法[J].计算机工程与设计,2004,25(12):2198-2201. 被引量：4
10宋雨,赵建利,王保义.关联规则挖掘中最大频繁集的双向查找算法[J].华北电力大学学报（自然科学版）,2005,32(2):67-70. 被引量：5

同被引文献122

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
2徐雷,张云勇,吴俊,房秉毅.云计算环境下的网络技术研究[J].通信学报,2012,33(S1):216-221. 被引量：35
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4韦素云,吉根林,曲维光.关联规则的冗余删除与聚类[J].小型微型计算机系统,2006,27(1):110-113. 被引量：15
5谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
6HAN JIAWEI,范明,孟小峰,译.数据挖掘概念与技术[M].北京:机械工业出版社,2004..
7J1N R, YANG G, AGRAWAL G. Shared memory paralleliza- tion of data mining algorithms: techniques, programming inler- face, and performance [J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(10) : 1-19.
8陈没,王庆波,何乐,等.云计算技术与实践[M].北京:电子工业出版社,2011.
9于楚礼.基于Hadoop的并行关联规则算法研究[D].天津:天津理工大学,2011.
10YANG Xin-yue, LIU Zhen, FU Yan. MapReduce as a program- ruing model for association rules algorithm on Hadoop [C]// 2010 3rd International Conference on Information Sciences and Interaction Sciences (ICIS). Chengdu : IEEE, 2010 : 99-102.

引证文献13

1万宝秀,王智钢,顾芸涵,陈珠.云计算下的网络通信分析[J].科技资讯,2014,12(4):68-69.
2俞雯亮,王智钢,顾芸菡,马佳依.关联规则在超市购物系统中的应用[J].电脑与信息技术,2014,22(2):11-13.
3穆俊.基于云平台的并行关联规则挖掘算法分析[J].现代电子技术,2015,38(11):123-125. 被引量：7
4丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
5王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
6杨向荣,王希武.基于规则约束的并行FP-Growth算法研究[J].计算机与数字工程,2015,43(11):1933-1936. 被引量：2
7方向,张功萱.基于Spark的PFP-Growth并行算法优化实现[J].现代电子技术,2016,39(8):9-13. 被引量：6
8汪峰坤,张婷婷.一种改进的关联规则并行算法[J].重庆工商大学学报（自然科学版）,2016,33(3):47-50. 被引量：2
9朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4
10王英博,马菁,柴佳佳,赵彬.基于Hadoop平台的改进关联规则挖掘算法[J].计算机工程,2016,42(10):69-74. 被引量：15

二级引证文献48

1齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
2高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
3袁玉珠.云计算模式下的计算机网络安全储存系统设计[J].电子技术与软件工程,2016(7):227-227. 被引量：10
4陈燕.云计算平台下资源监控系统的设计与开发[J].现代电子技术,2016,39(9):57-60. 被引量：2
5滑翔.基于云计算技术设计网络安全储存系统[J].电子技术应用,2016,42(11):106-107. 被引量：13
6李莉,贾志凯,张瑜,李时法.数据驱动的动车组滚动轴承故障预测[J].山东科技大学学报（自然科学版）,2017,36(4):16-23. 被引量：4
7高宇轩,孙华燕,张廷华,都琳.压缩编码孔径成像重构算法[J].兵器装备工程学报,2017,38(10):191-196. 被引量：1
8罗新.基于Hadoop的陶瓷行业信息聚合平台设计[J].软件导刊,2017,16(12):128-130.
9邬卓恒,吴晟,李英娜,李天龙.一种改进的隐私保护关联规则挖掘算法[J].信息技术,2018,42(2):90-94. 被引量：3
10聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3

1党华锐,雷帮军,郑守淇.基于PVM的分布式并行程序设计方法及其应用[J].计算机科学,1996,23(1):32-35.
2孙娟,石秋华.对FP-growth算法的一种改进算法[J].软件导刊,2012,11(1):62-64. 被引量：1
3若林,秀树,何恩生.韩国DRAM最大制造商的生产效率比日本还高[J].半导体情报,1993,30(4):63-64.
4李欣捷,范晓虹.基于分布式对象的分布式仿真[J].计算机仿真,1999,16(1):5-9. 被引量：4
5刘建东,王博.个性化推荐系统中的一种基于FP—growth的改进算法[J].计算机光盘软件与应用,2011(18):76-77.
6刘军,姚子建.一种基于.NET Remoting的分布式并行计算框架[J].福建电脑,2006,22(6):131-132. 被引量：1
7王芳.蚁群算法的原理及其应用[J].潍坊教育学院学报,2005,18(2):70-72. 被引量：7
8段海滨,王道波,朱家强,黄向华.蚁群算法理论及应用研究的进展[J].控制与决策,2004,19(12):1321-1326. 被引量：211
9张星,李蓓.FP-Growth关联规则挖掘的改进算法[J].平顶山工学院学报,2008,17(1):21-24. 被引量：2
10周元锋,白英彩.基于局网的分布式并行计算技术及JT—DFFT的实现[J].电脑开发与应用,1992,5(4):31-33.

计算机应用与软件

2013年第10期

浏览历史

内容加载中请稍等...

分布式并行关联规则挖掘算法研究被引量：13

参考文献9

二级参考文献16

共引文献94

同被引文献122

引证文献13

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

分布式并行关联规则挖掘算法研究 被引量：13

参考文献9

二级参考文献16

共引文献94

同被引文献122

引证文献13

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

分布式并行关联规则挖掘算法研究被引量：13