基于PFP-Growth算法的海量频繁项集挖掘被引量：2

Mining Massive Frequent Items Based on PFP-Growth Algorithm

下载PDF

导出

摘要随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集。实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。 As the development of Intemet,the data on it becomes more massive. How to mine useful information from the Interact is the key of study. In recent years, frequent item mining which plays an important role in associations rule mining and correlations mining be- comes popular among researchers. By the study of mining frequent itemsets based on cloud computing, the PFP-Growth algorithm is im- proved. Run the algorithm under the MapReduce model which allows users to obtain all required frequent itemsets efficiently from mas- sive data, the results of experiment shows the algorithm has good efficiency and flexibility.

作者江雨燕李平

机构地区安徽工业大学管理科学与工程学院

出处《计算机技术与发展》 2013年第9期63-65,198,共4页 Computer Technology and Development

基金安徽高校省级自然科学研究项目(kj2011z039) 安徽工业大学硕士研究生导师创新基金项目(D2011024)

关键词频繁项集海量数据 PFP-Growth frequent itcmset massive data PFP-Growth

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Agrawal R,Imielinski T,Swami A.Mining association rulesbetween sets of items in large database [ C]//Proc.of 1993ACM SIGMOD Conf.on Management of Data.WashingtonDC:ACM Press,1993:207-216.
2Agrawal R,Srikant R.Fast Algorithms for Mining AssociationRules[ C]//Proc.of the 20th Inti Conference on Very LargeDatabases.Santiago,Chile : [ s.n.] ,1994.
3Han J,Pei J,Yin Y.Mining frequent patterns without candi-date generation [ C]//Proc.of 2000 ACM SIGMOD Int' 1Conf.on Management of Data.Dallas,TX,New York: ACMPress,2000:1-12.
4颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
5杨云,罗艳霞.FP-Growth算法的改进[J].计算机工程与设计,2010,31(7):1506-1509. 被引量：25
6张玉芳,熊忠阳,彭燕,赵鹰.基于FP-Tree含正负项目的频繁项集挖掘算法[J].模式识别与人工智能,2008,21(2):246-253. 被引量：4
7Agrawal R,Shafer J.Parallel mining of association rules[ J].IEEE Trans,on Knowledge and Data Engineering,1996,8(6):962-969.
8Li Haoyuan,Wang Yi,Zhang Dong,et al.PFP: Parallel FP-Growth for Query Recommendation [ C] //Proceedings of the2008 ACM Conference on Recommender Systems.Lousanne,Switzerland: [s.n.] ,2008: 125-137.
9Zhou L,Zhong Z,Chang J,et al.Balanced Parallel FP-Growthwith Map-Reduce [ C]//Proceedings of 2010 IEEE YouthComference on Information Computing and Telecommunica-tions(YC-ICT).Beijing: [ s.n.] ,2010:243-246.
10宋威,刘文博,李晋宏.基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J].山东大学学报（工学版）,2011,41(4):49-55. 被引量：3

二级参考文献62

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
2卢炎生,饶丹.一种挖掘带否定关联规则的算法[J].计算机工程与科学,2004,26(10):63-65. 被引量：6
3徐前方,阚建杰,李永春,李荣盛,郭军.一种具有时序特征的告警关联规则挖掘算法[J].微电子学与计算机,2007,24(3):23-26. 被引量：6
4李志云,周国祥.一种基于MFP树的快速关联规则挖掘算法[J].计算机技术与发展,2007,17(6):94-96. 被引量：6
5Agrawal R.and Ramakrishnan S.,Fast Algorithms for Mining Association Rules in Large Databases.In Proceedings of the Twentieth International Conference on Very Large Databases,pp.487-499,Santiago,Chile,September 1994.
6Mannila H.,Toivonen H.,Levelwise Search and Borders of Theories in Know Ledge Discovery.Data Mining and Knowledge Discovery,Volume 1,Issue 3,1997,pp.241-258.
7Agrawal R.,Srikant R.,Fast Algorithms for Mining Association Rules.In Proceedings of the 20th International Conference on Very Large Data Bases,September 12-15,1994,Santiago de Chile,Chile,1994,pp.487-499.
8Groth D,Robertson E.,Discovering Frequent Item Sets in the Presence of Highly Frequent Items.In Proceedings of Rule Based Data Mining,2001,pp.84-91.
9N.Pasquier,Y.Bastide,R.Taouil,Discovering Frequent Closed Iternsets for Association Rules.In Proceedings of the 7th International Conference on Database Theory,1999,pp398-416.
10HERNANDEZ-LEON R, PALANCAR J H, CARRASCO-OCHOA J A, et al. Algorithms for mining frequent itemsets in static and dynamic datasets [ J ]. Intelligent Data Analysis, 2010, 14(3) :419-435.

共引文献97

1刘美琦,唐常杰,徐开阔,刘胤田.基于补充频繁模式的P2P搜索优化[J].四川大学学报（自然科学版）,2009,46(6):1638-1644.
2黄澍庄.频繁项集挖掘算法分析与比较[J].德州学院学报,2005,21(6):65-71.
3陈鹏,吕卫锋.一种基于有效修剪的最大频繁项集挖掘算法[J].北京航空航天大学学报,2006,32(2):218-223. 被引量：2
4唐德权,王绪峰,朱林立,谢文君.一种快速挖掘频繁项集算法的研究[J].湖南科技学院学报,2006,27(5):117-120. 被引量：3
5陈红丽,李广丽.Web挖掘在网络教学中的应用[J].江西理工大学学报,2006,27(3):46-49. 被引量：2
6马丽生,邓辉文,齐逸.一种新的最大频繁项目集挖掘算法[J].计算机应用,2006,26(11):2670-2673. 被引量：6
7尤磊,辛大欣,石云平.一种改进的FP-Growth关联规则挖掘算法[J].国外电子测量技术,2007,26(5):22-25. 被引量：2
8宋晶晶,刘瑞新,王艳,姜保庆.Mining Maximal Frequent Patterns in a Unidirectional FP-tree[J].Journal of Donghua University(English Edition),2006,23(6):105-109. 被引量：1
9沈海澜,陈志刚,王路露,陈再良.L-MAX频繁项集及挖掘算法[J].小型微型计算机系统,2007,28(12):2174-2179.
10陶利民,黄林鹏.Cherry:一种无须子集检查的闭合频繁集挖掘算法[J].软件学报,2008,19(2):379-388. 被引量：6

同被引文献5

1刘步中.基于频繁项集挖掘算法的改进与研究[J].计算机应用研究,2012,29(2):475-477. 被引量：31
2陈明洁.分布式频繁项集挖掘算法[J].计算机应用与软件,2015,32(10):63-66. 被引量：4
3方向,张功萱.基于Spark的PFP-Growth并行算法优化实现[J].现代电子技术,2016,39(8):9-13. 被引量：6
4朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4
5曹博,倪建成,李淋淋,于苹苹,姚彬修.基于Spark的并行频繁模式挖掘算法[J].计算机工程与应用,2016,52(20):86-91. 被引量：13

引证文献2

1石陆魁,张欣,师胜利.基于Spark的FP_Growth算法的并行与优化[J].计算机工程与应用,2018,54(13):52-58. 被引量：4
2梁志锋,牛威,李松鹤,吴洋.基于航天大数据集的相关挖掘与空间态势可视化[J].信息技术与信息化,2023(2):34-37.

二级引证文献4

1宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
2刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
3黄婕.基于Spark平台的FP-Growth算法优化与实现[J].湖南工业大学学报,2020,34(1):77-84. 被引量：2
4王普专,邬桐,周磊,张春香,吴饰斐.基于FP-growth算法的输电线路短路故障关键暂态信息检测[J].计算机应用与软件,2022,39(8):99-104.

1陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
2陈明洁.分布式频繁项集挖掘算法[J].计算机应用与软件,2015,32(10):63-66. 被引量：4
3刘建东,王博.个性化推荐系统中的一种基于FP—growth的改进算法[J].计算机光盘软件与应用,2011(18):76-77.
4张星,李蓓.FP-Growth关联规则挖掘的改进算法[J].平顶山工学院学报,2008,17(1):21-24. 被引量：2
5廖勇.基于差分隐私的频繁项集挖掘研究综述[J].电子技术与软件工程,2016(3):197-198.
6孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
7杨健兵.MapReduce框架下改进Apriori算法的研究[J].长春大学学报,2016,26(12):40-43. 被引量：2
8李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
9黄金晶,叶施仁,何福男.基于MapReduce的频繁项集挖掘算法研究[J].物流技术,2015,34(8):178-181. 被引量：3
10戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24

计算机技术与发展

2013年第9期

浏览历史

内容加载中请稍等...

基于PFP-Growth算法的海量频繁项集挖掘被引量：2

参考文献12

二级参考文献62

共引文献97

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于PFP-Growth算法的海量频繁项集挖掘 被引量：2

参考文献12

二级参考文献62

共引文献97

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于PFP-Growth算法的海量频繁项集挖掘被引量：2